CamPilot: Улучшение управления камерой в модели видеодиффузии с помощью эффективной обратной связи по вознаграждению камеры

Изображение создано Gemini AI
Недавние исследования улучшили модели диффузии видео, управляемые камерами, решая проблемы с их управляемостью. В работе представлен эффективный 3D-декодер, который преобразует латентные представления видео и позу камеры в 3D-репрезентации, оптимизируя согласованность на уровне пикселей для повышения точности выравнивания. Этот метод устраняет существующие недостатки моделей вознаграждения и снижает вычислительные затраты, демонстрируя свою эффективность на бенчмарках RealEstate10K и WorldScore. Для получения более подробной информации посетите страницу [CamPilot](https://a-bigbao.github.io/CamPilot/).
CamPilot представляет эффективную обратную связь по вознаграждению для улучшенных моделей диффузии видео
Исследователи представили CamPilot, инновационный подход, который использует Обучение с Обратной Связью по Вознаграждению (ReFL) для повышения управляемости камеры в процессе генерации видео. Этот метод решает постоянные проблемы согласования видео с входными данными от камеры.
Команда CamPilot разработала эффективный 3D декодер, учитывающий данные с камеры, который преобразует латентные видео в 3D представления для квантизации вознаграждения. Эта модель использует позу камеры как входной параметр и параметр проекции, уменьшая геометрические искажения, которые могут привести к размытым изображениям.
Они оптимизировали согласованность на уровне пикселей между смоделированными изображениями и фактическими эталонными изображениями в качестве механизма вознаграждения, введя термин видимости для выборочного контроля детерминированных областей с помощью геометрической деформации.
Эксперименты на бенчмарках RealEstate10K и WorldScore показывают значительные улучшения в управляемости камеры и качестве видео, подчеркивая потенциал CamPilot в генерации видео.
Для получения дополнительной информации посетите страницу проекта CamPilot.
Связанные темы:
📰 Первоисточник: https://arxiv.org/abs/2601.16214v1
Все права и авторство принадлежат первоначальному издателю.