Talk2Move：基于强化学习的文本指导场景中物体级几何变换

•

原作者:Jing Tan et al.

•

2026年1月5日

Gemini AI生成的图像

Talk2Move 是一款新颖的强化学习框架，旨在根据文本指令对场景中的物体进行空间变换。它解决了现有方法的局限性，能够实现几何调整（如旋转和缩放），而无需大量配对数据。通过采用群体相对策略优化和独特的空间奖励系统，Talk2Move 提升了学习效率，并在物体变换的精确度上达到了更高水平。实验表明，它的表现超越了当前的文本引导编辑技术，在空间操作中提供了可解释且一致的结果。

Talk2Move：通过强化学习推进对象级几何变换

一个新的框架，Talk2Move，利用强化学习实现文本指导的对象在各种场景中的空间变换。这种方法解决了现有多模态生成系统在对象级几何调整（如平移、旋转或缩放）方面的局限性。

Talk2Move采用群体相对策略优化（GRPO），通过从输入图像和轻量级文本变体生成的多样化回放，促进几何动作的探索。该框架的设计集成了一个空间奖励模型，使几何变换与相应的语言描述相一致。

Talk2Move的关键特性

离线策略步骤评估：通过专注于变换的关键阶段，提高学习效率。
主动步骤采样：根据实时反馈优化输出。
对象中心空间奖励：直接评估位移、旋转和缩放等行为。

实验结果表明，Talk2Move在对象变换的精确度和一致性方面取得了显著改善，超越了现有的文本指导编辑方法，在空间准确性上表现更佳，增强了场景的一致性。

分享此文章

Twitter Facebook LinkedIn WhatsApp Reddit

Talk2Move：基于强化学习的文本指导场景中物体级几何变换

Talk2Move：通过强化学习推进对象级几何变换

Talk2Move的关键特性

相关主题：

分享此文章