JUST-DUB-IT：通过联合音视频扩散进行视频配音

•

原作者:Anthony Chen et al.

•

2026年1月29日

Gemini AI生成的图像

研究人员开发了一种新颖的视频配音方法，该方法基于单模型音频-视频扩散模型，并通过轻量级的LoRA技术进行增强。此方法能够实时翻译音频并同步面部动作，生成具备语言切换的多语言视频。该模型在保持说话者身份和唇部同步的同时，提升了视觉质量，且在实际场景中表现优于传统的配音流程。

JUST-DUB-IT：视频配音技术的进展

一种新的视频配音方法，称为JUST-DUB-IT，利用基础音视频扩散模型来提升配音过程的质量和效率。这种创新方法解决了当前任务特定管道在现实应用中常常遇到的局限性。

JUST-DUB-IT采用低秩适配（LoRA）进行视频到视频的配音，允许同时生成翻译音频和同步的面部动作，从而显著改善配音体验。

主要优点包括：

比较评估表明，该模型超越了现有的配音管道，提供了更连贯和真实的配音体验。