Talk2Move : Apprentissage par renforcement pour la transformation géométrique au niveau des objets dans des scènes selon des instructions textuelles

Image générée par Gemini AI
Talk2Move est un nouveau cadre d'apprentissage par renforcement conçu pour effectuer des transformations spatiales d'objets dans des scènes, en se basant sur des instructions textuelles. Il répond aux limites des méthodes existantes en permettant des ajustements géométriques (comme la rotation et le redimensionnement) sans nécessiter de grandes quantités de données appariées. Grâce à l'utilisation de l'optimisation de politique relative par groupe et à un système de récompense spatiale unique, Talk2Move améliore l'efficacité de l'apprentissage et atteint une précision supérieure dans les transformations d'objets. Des expériences montrent qu'il surpasse les techniques d'édition guidées par le texte actuellement disponibles, offrant des résultats interprétables et cohérents dans la manipulation spatiale.
Talk2Move : Avancer la Transformation Géométrique au Niveau des Objets Grâce à l'Apprentissage par Renforcement
Un nouveau cadre, Talk2Move, utilise l'apprentissage par renforcement pour permettre des transformations spatiales d'objets selon des instructions textuelles dans diverses scènes. Cette approche répond aux limitations des systèmes de génération multimodale existants qui peinent à effectuer des ajustements géométriques au niveau des objets, tels que la translation, la rotation ou le redimensionnement.
Talk2Move emploie l'Optimisation de Politique Relative de Groupe (GRPO), facilitant l'exploration d'actions géométriques à travers des déploiements variés générés à partir d'images d'entrée et de variations textuelles légères. La conception du cadre intègre un modèle de récompense spatiale qui aligne les transformations géométriques avec les descriptions linguistiques correspondantes.
Caractéristiques Clés de Talk2Move
- Évaluation des Étapes Hors Politique : Améliore l'efficacité de l'apprentissage en se concentrant sur des étapes informatives de transformation.
- Échantillonnage Actif des Étapes : Affine les résultats en fonction des retours en temps réel.
- Récompenses Spatiales Centriques sur les Objets : Évaluent directement des comportements tels que le déplacement, la rotation et la mise à l'échelle.
Les résultats expérimentaux indiquent que Talk2Move réalise des améliorations notables en précision et cohérence des transformations d'objets, surpassant les méthodes d'édition guidée par texte existantes en termes de précision spatiale et renforçant la cohérence des scènes.
Sujets connexes :
📰 Source originale : https://arxiv.org/abs/2601.02356v1
Tous les droits et crédits appartiennent à l'éditeur original.