WorldCompass：用于长时间跨度世界模型的强化学习

•

原作者:Zehan Wang et al.

•

2026年2月9日

Gemini AI生成的图像

WorldCompass推出了一种先进的强化学习框架，旨在增强长时域交互式视频世界模型。其关键创新包括一种基于片段的回放策略，以提高样本效率；互补奖励函数以保持准确性和质量；以及一种负向感知的微调方法，以实现有效的模型提升。在对WorldPlay模型的测试中，交互准确性和视觉真实感都有显著提升，表明该技术在交互媒体和模拟环境中的实际应用潜力。

WorldCompass 提升基于视频的世界模型强化学习

一个名为 WorldCompass 的新后训练框架已经开发出来，旨在改善长期交互式基于视频的世界模型。这种方法的目标是通过利用交互信号，使这些模型能够更准确地探索环境。

WorldCompass 引入了三个关键创新：

剪辑级滚动策略：在单个目标剪辑上生成和评估多个样本，提高了滚动效率。
互补奖励函数：采用两个不同的奖励函数来引导模型，重点关注交互跟随的准确性和视觉质量。
高效的强化学习算法：利用负意识微调策略来提升模型能力。

在开源世界模型 WorldPlay 上的评估显示，WorldCompass 提高了交互准确性和视觉保真度。这标志着交互式世界模型能力的重大进展。

分享此文章

Twitter Facebook LinkedIn WhatsApp Reddit

WorldCompass：用于长时间跨度世界模型的强化学习

WorldCompass 提升基于视频的世界模型强化学习

相关主题：

分享此文章