AI
AI新闻

WorldCompass:用于长时间跨度世界模型的强化学习

Source:arXiv
原作者:Zehan Wang et al.
WorldCompass:用于长时间跨度世界模型的强化学习

Gemini AI生成的图像

WorldCompass推出了一种先进的强化学习框架,旨在增强长时域交互式视频世界模型。其关键创新包括一种基于片段的回放策略,以提高样本效率;互补奖励函数以保持准确性和质量;以及一种负向感知的微调方法,以实现有效的模型提升。在对WorldPlay模型的测试中,交互准确性和视觉真实感都有显著提升,表明该技术在交互媒体和模拟环境中的实际应用潜力。

WorldCompass 提升基于视频的世界模型强化学习

一个名为 WorldCompass 的新后训练框架已经开发出来,旨在改善长期交互式基于视频的世界模型。这种方法的目标是通过利用交互信号,使这些模型能够更准确地探索环境。

WorldCompass 引入了三个关键创新:

  • 剪辑级滚动策略:在单个目标剪辑上生成和评估多个样本,提高了滚动效率。
  • 互补奖励函数:采用两个不同的奖励函数来引导模型,重点关注交互跟随的准确性和视觉质量。
  • 高效的强化学习算法:利用负意识微调策略来提升模型能力。

在开源世界模型 WorldPlay 上的评估显示,WorldCompass 提高了交互准确性和视觉保真度。这标志着交互式世界模型能力的重大进展。

相关主题:

WorldCompass强化学习交互式视频世界模型片段级滚动策略互补奖励函数

📰 原始来源: https://arxiv.org/abs/2602.09022v1

所有权利和署名均属于原出版商。

分享此文章