JUST-DUB-IT: Дублирование видео с помощью совместной диффузии аудио и видео

Изображение создано Gemini AI
Исследователи разработали новый подход к дубляжу видео, использующий единую аудиовизуальную диффузионную модель, дополненную легковесной LoRA. Этот метод позволяет в реальном времени переводить аудиодорожку и синхронизировать движения губ, создавая мультиязычные видео с переключением языков. Модель сохраняет идентичность говорящего и синхронизацию губ, одновременно улучшая визуальное качество, что позволяет ей превосходить традиционные методы дубляжа в реальных условиях.
JUST-DUB-IT: Прогресс в технологии озвучивания видео
Новый подход к озвучиванию видео, названный JUST-DUB-IT, использует базовую модель диффузии аудио-видео для повышения качества и эффективности процессов озвучивания. Этот инновационный метод решает проблемы существующих специализированных потоков, которые часто не справляются с реальными приложениями.
JUST-DUB-IT применяет адаптацию низкого ранга (LoRA) для озвучивания видео, что позволяет одновременно генерировать переведенный аудиотрек и синхронизированные движения лиц, значительно улучшая опыт озвучивания.
Ключевые преимущества включают:
- Высококачественные озвученные видео с улучшенной визуальной четкостью.
- Улучшенная синхронизация губ, что имеет решающее значение для вовлечения зрителей.
- Устойчивость к сложным движениям и динамике реального мира.
Сравнительные оценки показывают, что эта модель превосходит существующие потоки озвучивания, предлагая более последовательный и реалистичный опыт озвучивания.
Связанные темы:
📰 Первоисточник: https://arxiv.org/abs/2601.22143v1
Все права и авторство принадлежат первоначальному издателю.