WorldCompass: Обучение с подкреплением для моделей мира с длительным горизонтом

Изображение создано Gemini AI
WorldCompass представляет усовершенствованную структуру обучения с подкреплением, предназначенную для повышения качества долгосрочных интерактивных видеомоделей мира. Ключевые инновации включают стратегию развёртывания на уровне клипов для повышения эффективности использования данных, дополнительные функции вознаграждения, обеспечивающие точность и качество, а также метод тонкой настройки с учётом негативных факторов для эффективного улучшения моделей. Тесты на модели WorldPlay демонстрируют заметные улучшения в точности взаимодействия и визуальной достоверности, что открывает новые возможности для применения в интерактивных медиа и симуляционных средах.
WorldCompass улучшает обучение с подкреплением для видео-ориентированных моделей мира
Разработана новая структура постобучения под названием WorldCompass, направленная на улучшение долгосрочных интерактивных видео-ориентированных моделей мира. Этот подход стремится позволить этим моделям более точно исследовать окружающую среду, используя сигналы взаимодействия.
WorldCompass представляет три ключевых инновации:
- Стратегия раскатки на уровне клипа: Генерирует и оценивает несколько образцов на одном целевом клипе, что повышает эффективность раскатки.
- Дополнительные функции вознаграждения: Использует две различные функции вознаграждения для управления моделью, сосредотачиваясь на точности взаимодействия и визуальном качестве.
- Эффективный алгоритм обучения с подкреплением: Применяет стратегию тонкой настройки с учетом негативных аспектов для повышения возможностей модели.
Оценки на открытой модели мира, WorldPlay, показывают, что WorldCompass улучшает точность взаимодействия и визуальную четкость. Это значительный шаг вперед в возможностях интерактивных моделей мира.
Связанные темы:
📰 Первоисточник: https://arxiv.org/abs/2602.09022v1
Все права и авторство принадлежат первоначальному издателю.