AI
AI新闻

CamPilot:利用高效的摄像机奖励反馈提升视频扩散模型中的摄像机控制

Source:arXiv
原作者:Wenhang Ge et al.
CamPilot:利用高效的摄像机奖励反馈提升视频扩散模型中的摄像机控制

Gemini AI生成的图像

最近的研究提升了基于摄像机控制的视频扩散模型,解决了摄像机可控性方面的局限性。该研究引入了一种高效的3D解码器,将视频潜在特征和摄像机姿态转化为3D表示,优化了像素级一致性,从而改善对齐效果。这一方法有效解决了现有奖励模型的不足,并降低了计算开销,在RealEstate10K和WorldScore基准测试中表现出色。如需了解更多信息,请访问[CamPilot页面](https://a-bigbao.github.io/CamPilot/)。

CamPilot推出高效的相机奖励反馈以增强视频扩散模型

研究人员推出了CamPilot,这是一种创新的方法,利用奖励反馈学习(ReFL)来增强视频生成中的相机可控性。该方法解决了视频与相机输入对齐的持续挑战。

CamPilot团队开发了一种高效的相机感知3D解码器,将视频潜变量转换为用于奖励量化的3D表示。该模型将相机姿态作为输入和投影参数,从而减少可能导致模糊渲染的几何失真。

他们优化了渲染视图与实际真实图像之间的像素级一致性,作为奖励机制,引入了可见性项,通过几何变形选择性地监督确定性区域。

在RealEstate10K和WorldScore基准测试上的实验显示,相机可控性和视频质量显著改善,突显了CamPilot在视频生成中的潜力。

欲了解更多信息,请访问CamPilot项目页面

相关主题:

CamPilot相机控制视频扩散模型奖励反馈学习3D解码器

📰 原始来源: https://arxiv.org/abs/2601.16214v1

所有权利和署名均属于原出版商。

分享此文章