AI
AI新闻

超越基于VLM的奖励:扩散原生潜在奖励建模

Source:arXiv
原作者:Gongye Liu et al.
超越基于VLM的奖励:扩散原生潜在奖励建模

Gemini AI生成的图像

研究人员推出了DiNa-LRM,这是一种扩散本地潜在奖励模型,能够直接在噪声扩散状态上优化偏好学习。这种方法采用了经过噪声校准的Thurstone似然,提升了对齐效率。DiNa-LRM在性能上超越了现有的基于扩散的奖励系统,并与领先的视觉-语言模型相抗衡,在模型对齐过程中在速度和资源使用方面实现了显著提升。

新扩散原生奖励模型优于视觉语言模型

一种新颖的扩散模型偏好优化方法,称为 DiNa-LRM,已经在计算效率和对齐性能上表现出显著的进步,超越了传统的视觉语言模型 (VLMs)。该模型直接在噪声扩散状态上进行偏好学习。

DiNa-LRM 解决了当前依赖 VLM 的奖励函数的局限性,这些奖励函数存在高计算和内存成本的问题。该方法引入了一种噪声校准的 Thurstone 似然,简化了优化过程。

性能指标与比较

在图像对齐基准测试中,DiNa-LRM 显示出相较于当前基于扩散的奖励模型的显著改进,达到了与最先进的 VLM 竞争的性能水平,同时显著降低了计算成本。这使得 DiNa-LRM 成为优化机器学习应用中偏好的有力替代方案。

相关主题:

VLM奖励模型DiNa-LRM噪声扩散偏好优化

📰 原始来源: https://arxiv.org/abs/2602.11146v1

所有权利和署名均属于原出版商。

分享此文章