WorldCompass: Обучение с подкреплением для моделей мира с длительным горизонтом

•

Оригинальный автор:Zehan Wang et al.

•

9 февраля 2026 г.

WorldCompass: Обучение с подкреплением для моделей мира с длительным горизонтом

Изображение создано Gemini AI

WorldCompass представляет усовершенствованную структуру обучения с подкреплением, предназначенную для повышения качества долгосрочных интерактивных видеомоделей мира. Ключевые инновации включают стратегию развёртывания на уровне клипов для повышения эффективности использования данных, дополнительные функции вознаграждения, обеспечивающие точность и качество, а также метод тонкой настройки с учётом негативных факторов для эффективного улучшения моделей. Тесты на модели WorldPlay демонстрируют заметные улучшения в точности взаимодействия и визуальной достоверности, что открывает новые возможности для применения в интерактивных медиа и симуляционных средах.

WorldCompass улучшает обучение с подкреплением для видео-ориентированных моделей мира

Разработана новая структура постобучения под названием WorldCompass, направленная на улучшение долгосрочных интерактивных видео-ориентированных моделей мира. Этот подход стремится позволить этим моделям более точно исследовать окружающую среду, используя сигналы взаимодействия.

WorldCompass представляет три ключевых инновации:

Стратегия раскатки на уровне клипа: Генерирует и оценивает несколько образцов на одном целевом клипе, что повышает эффективность раскатки.
Дополнительные функции вознаграждения: Использует две различные функции вознаграждения для управления моделью, сосредотачиваясь на точности взаимодействия и визуальном качестве.
Эффективный алгоритм обучения с подкреплением: Применяет стратегию тонкой настройки с учетом негативных аспектов для повышения возможностей модели.

Оценки на открытой модели мира, WorldPlay, показывают, что WorldCompass улучшает точность взаимодействия и визуальную четкость. Это значительный шаг вперед в возможностях интерактивных моделей мира.

Связанные темы:

WorldCompassобучение с подкреплениемдолгосрочные моделистратегия развертыванияфункции вознаграждения

📰 Первоисточник: https://arxiv.org/abs/2602.09022v1

Все права и авторство принадлежат первоначальному издателю.

Поделиться статьей

Twitter Facebook LinkedIn WhatsApp Reddit