WorldCompass: Aprendizado por Reforço para Modelos de Mundo de Longo Prazo

•

Autor original:Zehan Wang et al.

•

9 de fevereiro de 2026

WorldCompass: Aprendizado por Reforço para Modelos de Mundo de Longo Prazo

Imagem gerada por Gemini AI

A WorldCompass apresenta um avançado framework de Aprendizado por Reforço para aprimorar modelos de mundo interativos baseados em vídeo de longo alcance. As principais inovações incluem uma estratégia de rollout em nível de clipe para melhorar a eficiência amostral, funções de recompensa complementares que mantêm a precisão e a qualidade, além de um método de ajuste fino consciente de erros para um aprimoramento eficaz do modelo. Testes realizados com o modelo WorldPlay mostram melhorias significativas na precisão das interações e na fidelidade visual, sugerindo aplicações práticas em mídias interativas e ambientes de simulação.

WorldCompass Melhora o Aprendizado por Reforço para Modelos de Mundo Baseados em Vídeo

Um novo framework pós-treinamento chamado WorldCompass foi desenvolvido para aprimorar modelos de mundo interativos baseados em vídeo de longo prazo. Esta abordagem visa permitir que esses modelos explorem ambientes de forma mais precisa, aproveitando sinais de interação.

O WorldCompass introduz três inovações chave:

Estratégia de Rollout em Nível de Clip: Gera e avalia múltiplas amostras em um único clip-alvo, aumentando a eficiência do rollout.
Funções de Recompensa Complementares: Emprega duas funções de recompensa distintas para guiar o modelo, focando na precisão de seguimento de interação e na qualidade visual.
Algoritmo de RL Eficiente: Utiliza uma estratégia de ajuste fino ciente de negatividade para aumentar a capacidade do modelo.

Avaliações no modelo de mundo de código aberto, WorldPlay, revelam que o WorldCompass melhora a precisão de interação e a fidelidade visual. Isso marca um avanço significativo nas capacidades dos modelos de mundo interativos.

Tópicos relacionados:

WorldCompassAprendizado por Reforçomodelos de mundo interativosfunções de recompensaalgoritmo de RL eficiente

📰 Fonte original: https://arxiv.org/abs/2602.09022v1

Todos os direitos e créditos pertencem ao editor original.

Compartilhar este artigo

Twitter Facebook LinkedIn WhatsApp Reddit