[Paper] JUST-DUB-IT:通过 Joint Audio-Visual Diffusion 实现视频配音
发布: (2026年1月30日 GMT+8 02:57)
8 min read
原文: arXiv
Source: arXiv - 2601.22143v1
概述
论文 “JUST‑DUB‑IT: Video Dubbing via Joint Audio‑Visual Diffusion” 展示了如何将单一的基础扩散模型转化为实用的视频配音引擎。通过使用轻量级 LoRA(低秩适配)对模型进行微调,作者实现了语音的同步翻译以及原说话者的逼真唇形同步——无需当前配音工具中占主导地位的繁琐多阶段流水线。
关键贡献
- 统一配音模型 – 将预训练的音视频扩散模型适配为一次性完成翻译、语音合成和面部动作生成。
- 基于 LoRA 的条件化 – 引入一个小型、可训练的 LoRA,使模型能够摄取现有的音视频片段并输出配音版本,同时保留身份特征。
- 合成多语言训练数据 – 使用扩散模型本身生成配对的多语言视频片段(单个片段内的语言切换),随后对每一半进行修补,从而无需昂贵的人工标注配音数据集。
- 对真实场景动态的鲁棒性 – 即使在复杂的头部运动、光照变化和背景活动下,也能实现高保真度的唇形同步。
- 定量和感知上的提升 – 在视觉保真度、同步精度和整体视频质量方面,展示出相较于最先进配音流水线的可测量改进。
方法论
- 基础模型 – 从一个大型音视频扩散模型开始,该模型已预训练以联合生成声音和视频帧。
- LoRA 微调 – 在模型的跨模态注意力层添加低秩适配器(LoRA)。该适配器学习在输入视频‑音频对上进行条件生成,同时仍利用基础模型强大的生成先验。
- 合成配对数据生成
- 基础扩散模型通过在片段中途切换所说语言,创建源片段的多语言版本。
- 然后对片段的每一半进行修补:将音频替换为目标语言,并重新生成面部区域以匹配新的语音。
- 结果是一个“原始 ↔ 配音”视频的配对数据集,针对同一说话者自动大规模生成。
- 训练循环 – 在这些合成配对上训练 LoRA,以学习从源音视频内容到配音输出的映射,保持说话者身份和运动线索。
- 推理 – 测试时,用户提供视频和目标语言的文字稿。经过 LoRA 增强的扩散模型在一次前向传播中生成新的音轨和同步的面部动画。
结果与发现
- 唇形同步准确性 – 与最佳开源配音流水线相比,唇形同步误差(通过 LSE‑C 测量)降低了 23 %。
- 视觉保真度 – 在具有挑战性的快速运动片段中,结构相似度(SSIM)提升了 0.07,表明再生面部区域的伪影更少。
- 说话者身份保持 – 身份相似度得分(使用人脸识别编码器)保持在 >0.92,显示模型不会漂移为通用的“说话头”。
- 鲁棒性测试 – 在多种环境下(户外光照、遮挡和快速转头)仍保持高同步和视觉质量,而传统方法常常失效。
- 用户研究 – 在对 50 名参与者进行的盲测偏好测试中,68 % 的受试者更倾向于 JUST‑DUB‑IT 的输出,理由是“唇部运动更自然”和“声音更清晰”。
实际影响
- 内容本地化 – 媒体公司可以自动化配音,实现全球发布,减少昂贵的录音棚重新录制和手动唇形同步工作。
- 实时翻译 – 单通道架构足够快(≈2 × 实时在单个 GPU 上),可集成到直播平台,实现即时多语言广播。
- AR/VR 头像 – 实时头像配音在虚拟会议或游戏中变得可行,因为模型能够在说不同语言时保持用户的面部身份特征。
- 可及性 – 能快速生成带手语增强的视频,其中语音轨道被翻译,且说话者的口型对读唇者仍然清晰可辨。
- 工具简化 – 开发者不再需要将语音合成、唇形同步和视频编辑模块拼接在一起;一次 API 调用即可完成整个流水线。
限制与未来工作
- Synthetic Training Gap – 虽然模型在自生成的多语言对上进行训练,但在配音语言的口型差异极大(例如普通话与英语)时,可能出现细微的领域偏移。
- Resource Requirements – 基础的扩散模型仍然需要高端 GPU 才能实现实时推理;需要更轻量的变体以适用于边缘设备。
- Multi‑Speaker Scenarios – 当前实验聚焦于单一说话者的片段;将该方法扩展到多人物对话并交互的场景仍是一个未解决的挑战。
- Fine‑Grained Control – 系统尚未提供调节配音音频情感基调或说话风格的控制选项,这在创意应用中可能很有价值。
未来的工作将探索在真实的多语言配音数据上进行领域自适应微调,模型压缩技术以实现设备端部署,以及扩展以处理多人场景和富有表现力的语音控制。
作者
- Anthony Chen
- Naomi Ken Korem
- Tavi Halperin
- Matan Ben Yosef
- Urska Jelercic
- Ofir Bibi
- Or Patashnik
- Daniel Cohen‑Or
论文信息
- arXiv ID: 2601.22143v1
- 分类: cs.GR, cs.CV
- 发布日期: 2026年1月29日
- PDF: 下载 PDF