AI
KI-Nachrichten

WorldCompass: Verstärkendes Lernen für langfristige Weltmodelle

Source:arXiv
Originalautor:Zehan Wang et al.
WorldCompass: Verstärkendes Lernen für langfristige Weltmodelle

Von Gemini AI generiertes Bild

WorldCompass präsentiert ein fortschrittliches Reinforcement-Learning-Framework zur Verbesserung von interaktiven, videobasierten Weltmodellen über längere Zeiträume. Zu den Schlüsselin novationen gehören eine Clip-basierte Rollout-Strategie zur Steigerung der Proben-Effizienz, ergänzende Belohnungsfunktionen zur Wahrung von Genauigkeit und Qualität sowie eine negative Bewusstseins-Methode zur effektiven Modelloptimierung. Tests mit dem WorldPlay-Modell zeigen deutliche Verbesserungen in der Interaktionsgenauigkeit und visuellen Treue, was auf praktische Anwendungen in interaktiven Medien und Simulationsumgebungen hinweist.

WorldCompass verbessert das Verstärkungslernen für videobasierte Weltmodelle

Ein neues Post-Trainingsframework namens WorldCompass wurde entwickelt, um interaktive videobasierte Weltmodelle mit langen Horizonten zu verbessern. Dieser Ansatz zielt darauf ab, diesen Modellen zu ermöglichen, Umgebungen genauer zu erkunden, indem Interaktionssignale genutzt werden.

WorldCompass führt drei wichtige Innovationen ein:

  • Clip-Level Rollout-Strategie: Generiert und bewertet mehrere Proben in einem einzelnen Zielclip und verbessert so die Rollout-Effizienz.
  • Komplementäre Belohnungsfunktionen: Nutzt zwei unterschiedliche Belohnungsfunktionen, um das Modell zu steuern, wobei der Fokus auf der Genauigkeit der Interaktionsverfolgung und der visuellen Qualität liegt.
  • Effizientes RL-Algorithmus: Verwendet eine negativ-wahrnehmende Feinabstimmungsstrategie, um die Modellspeicherkapazität zu erhöhen.

Bewertungen des Open-Source-Weltmodells WorldPlay zeigen, dass WorldCompass die Interaktionsgenauigkeit und visuelle Treue verbessert. Dies stellt einen bedeutenden Fortschritt in den Fähigkeiten interaktiver Weltmodelle dar.

Verwandte Themen:

WorldCompassverstärkendes Lernenlangfristige WeltmodelleClip-Level Rollout-Strategiekomplementäre Belohnungsfunktionen

📰 Originalquelle: https://arxiv.org/abs/2602.09022v1

Alle Rechte und Urheberrechte liegen beim ursprünglichen Herausgeber.

Artikel teilen