JUST-DUB-IT:通过联合音视频扩散进行视频配音

Gemini AI生成的图像
研究人员开发了一种新颖的视频配音方法,该方法基于单模型音频-视频扩散模型,并通过轻量级的LoRA技术进行增强。此方法能够实时翻译音频并同步面部动作,生成具备语言切换的多语言视频。该模型在保持说话者身份和唇部同步的同时,提升了视觉质量,且在实际场景中表现优于传统的配音流程。
JUST-DUB-IT:视频配音技术的进展
一种新的视频配音方法,称为JUST-DUB-IT,利用基础音视频扩散模型来提升配音过程的质量和效率。这种创新方法解决了当前任务特定管道在现实应用中常常遇到的局限性。
JUST-DUB-IT采用低秩适配(LoRA)进行视频到视频的配音,允许同时生成翻译音频和同步的面部动作,从而显著改善配音体验。
主要优点包括:
- 高质量的配音视频,视觉保真度提升。
- 改善的唇部同步,对观众参与至关重要。
- 对复杂运动和现实动态的鲁棒性。
比较评估表明,该模型超越了现有的配音管道,提供了更连贯和真实的配音体验。
相关主题:
视频配音音视频基础模型LoRA多模态生成生成模型
📰 原始来源: https://arxiv.org/abs/2601.22143v1
所有权利和署名均属于原出版商。