Talk2Move: Aprendizaje por refuerzo para la transformación geométrica a nivel de objeto en escenas a partir de instrucciones textuales

•

Autor original:Jing Tan et al.

•

5 de enero de 2026

Talk2Move: Aprendizaje por refuerzo para la transformación geométrica a nivel de objeto en escenas a partir de instrucciones textuales

Imagen generada por Gemini AI

Talk2Move es un novedoso marco de aprendizaje por refuerzo diseñado para realizar transformaciones espaciales de objetos en escenas basadas en instrucciones textuales. Este enfoque aborda las limitaciones de los métodos existentes, permitiendo ajustes geométricos (como rotaciones y cambios de tamaño) sin la necesidad de contar con grandes conjuntos de datos emparejados. A través de la optimización de políticas relativas en grupo y un sistema de recompensas espaciales único, Talk2Move mejora la eficiencia del aprendizaje y logra una precisión superior en las transformaciones de objetos. Los experimentos demuestran que supera las técnicas actuales de edición guiada por texto, ofreciendo resultados interpretables y coherentes en la manipulación espacial.

Talk2Move: Avanzando la Transformación Geométrica a Nivel de Objeto a Través del Aprendizaje por Refuerzo

Un nuevo marco, Talk2Move, utiliza el aprendizaje por refuerzo para permitir transformaciones espaciales de objetos indicadas por texto en diversas escenas. Este enfoque aborda las limitaciones de los sistemas de generación multimodal existentes que tienen dificultades con ajustes geométricos a nivel de objeto, como traducir, rotar o redimensionar.

Talk2Move emplea la Optimización de Políticas Relativas en Grupo (GRPO), facilitando la exploración de acciones geométricas a través de diversas implementaciones generadas a partir de imágenes de entrada y variaciones textuales ligeras. El diseño del marco integra un modelo de recompensa espacial que alinea las transformaciones geométricas con las descripciones lingüísticas correspondientes.

Características Clave de Talk2Move

Evaluación de Pasos Fuera de Política: Mejora la eficiencia del aprendizaje al centrarse en etapas informativas de la transformación.
Muestreo Activo de Pasos: Refina los resultados basándose en comentarios en tiempo real.
Recompensas Espaciales Centradas en Objetos: Evalúa directamente comportamientos como desplazamiento, rotación y escalado.

Los resultados experimentales indican que Talk2Move logra mejoras notables en precisión y consistencia de las transformaciones de objetos, superando los métodos de edición guiados por texto existentes en precisión espacial y mejorando la coherencia de las escenas.

Temas relacionados:

Talk2Moveaprendizaje por refuerzotransformaciones geométricasinstrucciones textualesoptimización de políticas.

📰 Fuente original: https://arxiv.org/abs/2601.02356v1

Todos los derechos y créditos pertenecen al editor original.

Compartir este artículo

Twitter Facebook LinkedIn WhatsApp Reddit