超越基于VLM的奖励:扩散原生潜在奖励建模

Gemini AI生成的图像
研究人员推出了DiNa-LRM,这是一种扩散本地潜在奖励模型,能够直接在噪声扩散状态上优化偏好学习。这种方法采用了经过噪声校准的Thurstone似然,提升了对齐效率。DiNa-LRM在性能上超越了现有的基于扩散的奖励系统,并与领先的视觉-语言模型相抗衡,在模型对齐过程中在速度和资源使用方面实现了显著提升。
新扩散原生奖励模型优于视觉语言模型
一种新颖的扩散模型偏好优化方法,称为 DiNa-LRM,已经在计算效率和对齐性能上表现出显著的进步,超越了传统的视觉语言模型 (VLMs)。该模型直接在噪声扩散状态上进行偏好学习。
DiNa-LRM 解决了当前依赖 VLM 的奖励函数的局限性,这些奖励函数存在高计算和内存成本的问题。该方法引入了一种噪声校准的 Thurstone 似然,简化了优化过程。
性能指标与比较
在图像对齐基准测试中,DiNa-LRM 显示出相较于当前基于扩散的奖励模型的显著改进,达到了与最先进的 VLM 竞争的性能水平,同时显著降低了计算成本。这使得 DiNa-LRM 成为优化机器学习应用中偏好的有力替代方案。
相关主题:
VLM奖励模型DiNa-LRM噪声扩散偏好优化
📰 原始来源: https://arxiv.org/abs/2602.11146v1
所有权利和署名均属于原出版商。