超越基于VLM的奖励：扩散原生潜在奖励建模

•

原作者:Gongye Liu et al.

•

2026年2月11日

Gemini AI生成的图像

研究人员推出了DiNa-LRM，这是一种扩散本地潜在奖励模型，能够直接在噪声扩散状态上优化偏好学习。这种方法采用了经过噪声校准的Thurstone似然，提升了对齐效率。DiNa-LRM在性能上超越了现有的基于扩散的奖励系统，并与领先的视觉-语言模型相抗衡，在模型对齐过程中在速度和资源使用方面实现了显著提升。

新扩散原生奖励模型优于视觉语言模型

一种新颖的扩散模型偏好优化方法，称为 DiNa-LRM，已经在计算效率和对齐性能上表现出显著的进步，超越了传统的视觉语言模型 (VLMs)。该模型直接在噪声扩散状态上进行偏好学习。

DiNa-LRM 解决了当前依赖 VLM 的奖励函数的局限性，这些奖励函数存在高计算和内存成本的问题。该方法引入了一种噪声校准的 Thurstone 似然，简化了优化过程。

性能指标与比较

在图像对齐基准测试中，DiNa-LRM 显示出相较于当前基于扩散的奖励模型的显著改进，达到了与最先进的 VLM 竞争的性能水平，同时显著降低了计算成本。这使得 DiNa-LRM 成为优化机器学习应用中偏好的有力替代方案。

分享此文章

Twitter Facebook LinkedIn WhatsApp Reddit

超越基于VLM的奖励：扩散原生潜在奖励建模

新扩散原生奖励模型优于视觉语言模型

性能指标与比较

相关主题：

分享此文章