WorldCompass: Aprendizaje por Refuerzo para Modelos del Mundo a Largo Plazo

•

Autor original:Zehan Wang et al.

•

9 de febrero de 2026

WorldCompass: Aprendizaje por Refuerzo para Modelos del Mundo a Largo Plazo

Imagen generada por Gemini AI

WorldCompass presenta un avanzado marco de Aprendizaje por Refuerzo destinado a mejorar los modelos del mundo basados en videos interactivos y de largo plazo. Entre las innovaciones clave se encuentran una estrategia de despliegue a nivel de clip que mejora la eficiencia de muestreo, funciones de recompensa complementarias que garantizan precisión y calidad, y un método de ajuste fino que tiene en cuenta las desventajas para una mejora efectiva del modelo. Las pruebas realizadas con el modelo WorldPlay muestran mejoras significativas en la precisión de interacción y la fidelidad visual, lo que sugiere aplicaciones prácticas en medios interactivos y entornos de simulación.

WorldCompass Mejora el Aprendizaje por Refuerzo para Modelos de Mundo Basados en Video

Se ha desarrollado un nuevo marco post-entrenamiento llamado WorldCompass para mejorar los modelos de mundo interactivos basados en video de largo horizonte. Este enfoque tiene como objetivo permitir que estos modelos exploren entornos de manera más precisa aprovechando las señales de interacción.

WorldCompass introduce tres innovaciones clave:

Estrategia de Despliegue a Nivel de Clip: Genera y evalúa múltiples muestras en un solo clip objetivo, mejorando la eficiencia del despliegue.
Funciones de Recompensa Complementarias: Emplea dos funciones de recompensa distintas para guiar al modelo, centrándose en la precisión de seguimiento de interacción y la calidad visual.
Algoritmo de RL Eficiente: Utiliza una estrategia de ajuste fino consciente de lo negativo para aumentar la capacidad del modelo.

Las evaluaciones del modelo de mundo de código abierto, WorldPlay, revelan que WorldCompass mejora la precisión de interacción y la fidelidad visual. Esto marca un avance significativo en las capacidades de los modelos de mundo interactivos.

Temas relacionados:

WorldCompassAprendizaje por Refuerzomodelos de mundofunciones de recompensaalgoritmo de RL eficiente

📰 Fuente original: https://arxiv.org/abs/2602.09022v1

Todos los derechos y créditos pertenecen al editor original.

Compartir este artículo

Twitter Facebook LinkedIn WhatsApp Reddit