Talk2Move: Apprendimento per Rinforzo per Trasformazioni Geometriche a Livello Oggetto Istruite da Testo nelle Scene

Immagine generata da Gemini AI
Talk2Move è un innovativo framework di apprendimento per rinforzo progettato per le trasformazioni spaziali degli oggetti in scenari basati su istruzioni testuali. Risponde alle limitazioni dei metodi esistenti, consentendo aggiustamenti geometrici (come rotazione e ridimensionamento) senza necessitare di un ampio set di dati abbinati. Grazie all'uso della Group Relative Policy Optimization e di un sistema di ricompensa spaziale unico, Talk2Move migliora l'efficienza dell'apprendimento e raggiunge un'accuratezza superiore nelle trasformazioni degli oggetti. Gli esperimenti dimostrano che supera le attuali tecniche di editing guidato da testo, offrendo risultati interpretabili e coerenti nella manipolazione spaziale.
Talk2Move: Avanzamento della Trasformazione Geometrica a Livello di Oggetto Attraverso il Reinforcement Learning
Un nuovo framework, Talk2Move, utilizza il reinforcement learning per abilitare trasformazioni spaziali di oggetti istruiti tramite testo all'interno di diverse scene. Questo approccio affronta le limitazioni dei sistemi di generazione multimodale esistenti che faticano con aggiustamenti geometrici a livello di oggetto come la traduzione, la rotazione o il ridimensionamento.
Talk2Move impiega il Group Relative Policy Optimization (GRPO), facilitando l'esplorazione di azioni geometriche attraverso diverse simulazioni generate da immagini di input e variazioni testuali leggere. Il design del framework integra un modello di ricompensa spaziale che allinea le trasformazioni geometriche con le corrispondenti descrizioni linguistiche.
Caratteristiche Chiave di Talk2Move
- Valutazione dei Passi Off-Policy: Migliora l'efficienza dell'apprendimento concentrandosi sulle fasi informative della trasformazione.
- Campionamento Attivo dei Passi: Affina i risultati basandosi su feedback in tempo reale.
- Ricompense Spaziali Centrate sugli Oggetti: Valuta direttamente comportamenti come spostamento, rotazione e scalatura.
I risultati sperimentali indicano che Talk2Move ottiene miglioramenti notevoli nella precisione e nella coerenza delle trasformazioni degli oggetti, superando i metodi di editing guidati da testo esistenti in termini di accuratezza spaziale e migliorando la coerenza della scena.
Argomenti correlati:
📰 Fonte originale: https://arxiv.org/abs/2601.02356v1
Tutti i diritti e i crediti appartengono all'editore originale.