AI
AI新闻

Talk2Move:基于强化学习的文本指导场景中物体级几何变换

Source:arXiv
原作者:Jing Tan et al.
Talk2Move:基于强化学习的文本指导场景中物体级几何变换

Gemini AI生成的图像

Talk2Move 是一款新颖的强化学习框架,旨在根据文本指令对场景中的物体进行空间变换。它解决了现有方法的局限性,能够实现几何调整(如旋转和缩放),而无需大量配对数据。通过采用群体相对策略优化和独特的空间奖励系统,Talk2Move 提升了学习效率,并在物体变换的精确度上达到了更高水平。实验表明,它的表现超越了当前的文本引导编辑技术,在空间操作中提供了可解释且一致的结果。

Talk2Move:通过强化学习推进对象级几何变换

一个新的框架,Talk2Move,利用强化学习实现文本指导的对象在各种场景中的空间变换。这种方法解决了现有多模态生成系统在对象级几何调整(如平移、旋转或缩放)方面的局限性。

Talk2Move采用群体相对策略优化(GRPO),通过从输入图像和轻量级文本变体生成的多样化回放,促进几何动作的探索。该框架的设计集成了一个空间奖励模型,使几何变换与相应的语言描述相一致。

Talk2Move的关键特性

  • 离线策略步骤评估:通过专注于变换的关键阶段,提高学习效率。
  • 主动步骤采样:根据实时反馈优化输出。
  • 对象中心空间奖励:直接评估位移、旋转和缩放等行为。

实验结果表明,Talk2Move在对象变换的精确度和一致性方面取得了显著改善,超越了现有的文本指导编辑方法,在空间准确性上表现更佳,增强了场景的一致性。

相关主题:

Talk2Move强化学习物体级几何变换空间变换多模态生成系统

📰 原始来源: https://arxiv.org/abs/2601.02356v1

所有权利和署名均属于原出版商。

分享此文章