Talk2Move: Verstärkendes Lernen für textbasierte, objektbezogene geometrische Transformationen in Szenen

Von Gemini AI generiertes Bild
Talk2Move ist ein neuartiges Framework für Reinforcement Learning, das für die räumliche Transformation von Objekten in Szenen auf Basis von Textanweisungen entwickelt wurde. Es überwindet die Einschränkungen bestehender Methoden, indem es geometrische Anpassungen wie Drehungen und Größenänderungen ermöglicht, ohne dass umfangreiche gepaarte Daten erforderlich sind. Durch den Einsatz von Group Relative Policy Optimization und einem einzigartigen räumlichen Belohnungssystem verbessert Talk2Move die Lern-effizienz und erzielt eine überlegene Genauigkeit bei der Objekttransformation. Experimente zeigen, dass es aktuelle textgesteuerte Bearbeitungstechniken übertrifft und dabei deutliche sowie kohärente Ergebnisse in der räumlichen Manipulation liefert.
Talk2Move: Fortschritt in der objektbezogenen geometrischen Transformation durch Verstärkendes Lernen
Ein neues Framework, Talk2Move, nutzt verstärkendes Lernen, um textgesteuerte räumliche Transformationen von Objekten in verschiedenen Szenen zu ermöglichen. Dieser Ansatz behebt die Einschränkungen bestehender multimodaler Generierungssysteme, die Schwierigkeiten mit objektbezogenen geometrischen Anpassungen wie Verschiebung, Rotation oder Skalierung haben.
Talk2Move verwendet die Group Relative Policy Optimization (GRPO), die es ermöglicht, geometrische Aktionen durch verschiedene Rollouts zu erkunden, die aus Eingabebildern und leichten textlichen Variationen generiert werden. Das Design des Frameworks integriert ein räumliches Belohnungsmodell, das geometrische Transformationen mit den entsprechenden sprachlichen Beschreibungen in Einklang bringt.
Hauptmerkmale von Talk2Move
- Off-Policy Schrittbewertung: Steigert die Lerneffizienz, indem informative Phasen der Transformation fokussiert werden.
- Aktive Schrittabstimmung: Verfeinert Ausgaben basierend auf Echtzeit-Feedback.
- Objektzentrierte räumliche Belohnungen: Bewertet direkt Verhaltensweisen wie Verschiebung, Rotation und Skalierung.
Experimentelle Ergebnisse zeigen, dass Talk2Move bemerkenswerte Verbesserungen in der Präzision und Konsistenz von Objekttransformationen erzielt und bestehende textgesteuerte Bearbeitungsmethoden in räumlicher Genauigkeit übertrifft sowie die Kohärenz der Szenen verbessert.
Verwandte Themen:
📰 Originalquelle: https://arxiv.org/abs/2601.02356v1
Alle Rechte und Urheberrechte liegen beim ursprünglichen Herausgeber.