Talk2Move: Обучение с подкреплением для геометрических преобразований объектов в сценах на основе текстовых инструкций

Изображение создано Gemini AI
Talk2Move — это новая система обучения с подкреплением, разработанная для пространственных трансформаций объектов в сценах на основе текстовых инструкций. Она устраняет ограничения существующих методов, позволяя выполнять геометрические изменения (такие как вращение и изменение размера) без необходимости в обширных парах данных. Используя метод Group Relative Policy Optimization и уникальную систему пространственных вознаграждений, Talk2Move повышает эффективность обучения и достигает высокой точности в трансформации объектов. Эксперименты показывают, что она превосходит современные методы редактирования на основе текстовых указаний, предоставляя интерпретируемые и последовательные результаты в области пространственной манипуляции.
Talk2Move: Продвижение геометрической трансформации объектов на уровне объектов с помощью обучения с подкреплением
Новая структура, Talk2Move, использует обучение с подкреплением для реализации пространственных трансформаций объектов на основе текстовых инструкций в различных сценах. Этот подход решает ограничения существующих мультимодальных генеративных систем, которые испытывают трудности с геометрическими изменениями на уровне объектов, такими как перемещение, вращение или изменение размера.
Talk2Move использует оптимизацию политики относительных групп (Group Relative Policy Optimization, GRPO), что облегчает исследование геометрических действий через разнообразные развертывания, создаваемые на основе входных изображений и легких текстовых вариаций. Дизайн структуры интегрирует пространственную модель вознаграждений, которая согласует геометрические трансформации с соответствующими лингвистическими описаниями.
Ключевые особенности Talk2Move
- Оценка шагов вне политики: Повышает эффективность обучения, сосредоточиваясь на информативных этапах трансформации.
- Активная выборка шагов: Уточняет результаты на основе обратной связи в реальном времени.
- Пространственные вознаграждения, ориентированные на объекты: Прямо оценивают такие действия, как смещение, вращение и масштабирование.
Экспериментальные результаты показывают, что Talk2Move достигает значительных улучшений в точности и согласованности трансформаций объектов, превосходя существующие методы редактирования, основанные на текстовых подсказках, по пространственной точности и улучшая согласованность сцен.
Связанные темы:
📰 Первоисточник: https://arxiv.org/abs/2601.02356v1
Все права и авторство принадлежат первоначальному издателю.