WorldCompass: Apprendimento per rinforzo per modelli di mondo a lungo termine

•

Autore originale:Zehan Wang et al.

•

9 febbraio 2026

WorldCompass: Apprendimento per rinforzo per modelli di mondo a lungo termine

Immagine generata da Gemini AI

WorldCompass presenta un avanzato framework di Reinforcement Learning per migliorare i modelli di mondo video interattivi a lungo termine. Tra le principali innovazioni spiccano una strategia di rollout a livello di clip per una maggiore efficienza campionaria, funzioni di ricompensa complementari per mantenere l'accuratezza e la qualità, e un metodo di fine-tuning consapevole del negativo per un miglioramento efficace del modello. I test condotti sul modello WorldPlay evidenziano notevoli miglioramenti nell'accuratezza delle interazioni e nella fedeltà visiva, suggerendo applicazioni pratiche nei media interattivi e negli ambienti di simulazione.

WorldCompass Migliora l'Apprendimento per Rinforzo nei Modelli di Mondo Basati su Video

È stato sviluppato un nuovo framework post-addestramento chiamato WorldCompass per migliorare i modelli di mondo interattivi basati su video a lungo termine. Questo approccio ha l'obiettivo di consentire a questi modelli di esplorare gli ambienti in modo più accurato sfruttando i segnali di interazione.

WorldCompass introduce tre innovazioni chiave:

Strategia di Rollout a Clip: Genera e valuta più campioni in un singolo clip obiettivo, migliorando l'efficienza del rollout.
Funzioni di Ricompensa Complementari: Utilizza due distinte funzioni di ricompensa per guidare il modello, concentrandosi sull'accuratezza seguente all'interazione e sulla qualità visiva.
Algoritmo di RL Efficiente: Impiega una strategia di fine-tuning consapevole del negativo per aumentare la capacità del modello.

Le valutazioni sul modello di mondo open-source, WorldPlay, rivelano che WorldCompass migliora l'accuratezza dell'interazione e la fedeltà visiva. Questo segna un significativo avanzamento nelle capacità dei modelli di mondo interattivi.

Argomenti correlati:

WorldCompassApprendimento per Rinforzomodelli di mondo interattivifunzioni di ricompensaalgoritmo di RL Efficiente

📰 Fonte originale: https://arxiv.org/abs/2602.09022v1

Tutti i diritti e i crediti appartengono all'editore originale.

Condividi questo articolo

Twitter Facebook LinkedIn WhatsApp Reddit