CamPilot：利用高效的摄像机奖励反馈提升视频扩散模型中的摄像机控制

•

原作者:Wenhang Ge et al.

•

2026年1月22日

Gemini AI生成的图像

最近的研究提升了基于摄像机控制的视频扩散模型，解决了摄像机可控性方面的局限性。该研究引入了一种高效的3D解码器，将视频潜在特征和摄像机姿态转化为3D表示，优化了像素级一致性，从而改善对齐效果。这一方法有效解决了现有奖励模型的不足，并降低了计算开销，在RealEstate10K和WorldScore基准测试中表现出色。如需了解更多信息，请访问[CamPilot页面](https://a-bigbao.github.io/CamPilot/)。

CamPilot推出高效的相机奖励反馈以增强视频扩散模型

研究人员推出了CamPilot，这是一种创新的方法，利用奖励反馈学习（ReFL）来增强视频生成中的相机可控性。该方法解决了视频与相机输入对齐的持续挑战。

CamPilot团队开发了一种高效的相机感知3D解码器，将视频潜变量转换为用于奖励量化的3D表示。该模型将相机姿态作为输入和投影参数，从而减少可能导致模糊渲染的几何失真。

他们优化了渲染视图与实际真实图像之间的像素级一致性，作为奖励机制，引入了可见性项，通过几何变形选择性地监督确定性区域。

在RealEstate10K和WorldScore基准测试上的实验显示，相机可控性和视频质量显著改善，突显了CamPilot在视频生成中的潜力。

欲了解更多信息，请访问CamPilot项目页面。

分享此文章

Twitter Facebook LinkedIn WhatsApp Reddit

CamPilot：利用高效的摄像机奖励反馈提升视频扩散模型中的摄像机控制

CamPilot推出高效的相机奖励反馈以增强视频扩散模型

相关主题：

分享此文章