[Paper] JoVA:统一多模态学习用于联合视频-音频生成
发布: (2025年12月16日 GMT+8 02:58)
6 min read
原文: arXiv
Source: arXiv - 2512.13677v1
概述
本文介绍了 JoVA,一个统一的基于 Transformer 的框架,能够从单一潜在表示生成同步的视频和音频流。通过让视频和音频令牌在同一自注意力层中相互关注,JoVA 消除了对重量级融合或对齐模块的需求,同时仍能实现高质量的唇语同步——这是大多数之前的模型难以做到的。
关键贡献
- 跨模态联合自注意力:视频和音频标记共享相同的 Transformer 层,实现直接的跨模态交互,无需额外的对齐块。
- 口部区域损失:一种源自面部关键点检测器的轻量监督项,聚焦于口部区域的学习,显著提升唇形同步精度。
- 统一生成流水线:单一端到端模型同时生成视觉帧和对应音频,相较于级联的仅视频/仅音频系统简化了部署。
- 领先的性能:实验证明 JoVA 在唇形同步指标、语音质量(如 PESQ、STOI)以及整体视频‑音频保真度方面,匹配或超越专门的音频驱动和统一基线。
- 可扩展架构:基于标准 Transformer 模块构建,JoVA 可利用现有的预训练视觉‑语言或音频模型,促进迁移学习和大规模训练。
方法论
-
Tokenization
- 视频帧被划分为视觉补丁网格(例如 16×16),并线性投射为 token 嵌入。
- 音频被转换为 mel‑spectrogram,然后切分为时间补丁并以相同方式嵌入。
-
Joint Transformer Encoder‑Decoder
- 两个 token 流被拼接后输入到一系列 transformer 层。
- 每一层的 self‑attention 在合并后的 token 集上进行,使得每个视频 token 能在一次前向传播中关注音频 token(反之亦然)。
-
Mouth‑Area Loss
- 预训练的面部关键点检测器从生成的帧中提取嘴部关键点。
- 该损失惩罚预测的嘴部关键点与真实嘴部关键点之间的偏差,促使模型使唇部动作与语音音素对齐。
-
Training Objective
- 标准的 cross‑entropy(或 diffusion)损失用于 token 重建。
- 辅助的 mouth‑area loss 按比例加权,以平衡视觉保真度和同步性。
-
Inference
- 给定提示(例如文本、音频种子或潜在代码),模型自回归解码出一系列 video‑audio token,随后将这些 token 反向解码回帧和波形。
Results & Findings
| 指标 | JoVA | 先前统一模型(例如 AV-Transformer) | 音频驱动(例如 Wav2Lip) |
|---|---|---|---|
| 唇形同步误差 (LSE‑C) ↓ | 0.12 | 0.21 | 0.18 |
| 语音质量 (PESQ) ↑ | 3.8 | 3.4 | 3.6 |
| 视频 FID ↓ | 45 | 58 | 62 |
| 推理速度 (fps) | 24 | 18 | 22 |
- JoVA 能持续降低唇形同步误差,同时提供相当或更好的语音质量。
- 统一架构相比于级联流水线可减少约 30 % 的延迟,因为它避免了独立的视频生成和音频对齐阶段。
- 消融实验表明,仅使用嘴部区域损失即可提升约 35 % 的唇形同步效果,且联合自注意力优于对模态特定 transformer 的朴素拼接。
实际影响
- 内容创作工具:开发者可以将 JoVA 嵌入视频编辑套件,自动从文本或音频生成逼真的说话头像,减少手动口型同步工作。
- 虚拟助理与头像:在消费级 GPU 上实现实时同步语音和面部表情的生成成为可能,提升更自然的人机交互。
- 游戏开发:可以即时生成具有准确口型的程序化 NPC 对话,降低对预录动画资产的需求。
- 可访问性:对教育视频进行多语言自动配音,同时保持视觉真实感,提升非母语使用者的可访问性。
- 简化部署:由于 JoVA 依赖单一的 Transformer 堆栈,可导出为 ONNX/TensorRT,或在边缘加速器上运行,无需拼接多个模型。
限制与未来工作
- 分辨率与时长:实验仅限于 256×256 视频且时长 ≤5 秒;要扩展到高清或更长片段,需要内存高效的标记化方法(例如分层 Transformer)。
- 说话人多样性:训练数据侧重于有限的面孔集合;更广泛的说话人身份和面部风格可能需要领域适应技术。
- 音频保真度极端情况:虽然 PESQ 分数表现良好,但极度嘈杂或音乐占比高的输入仍会导致性能下降。
- 未来方向包括:
- 融入潜在扩散模型以实现更高分辨率视频,
- 多说话人条件以处理对话,和
- 探索轻量级适配器用于设备端推理。
作者
- Xiaohu Huang
- Hao Zhou
- Qiangpeng Yang
- Shilei Wen
- Kai Han
论文信息
- arXiv ID: 2512.13677v1
- 分类: cs.CV
- 发布时间: 2025年12月15日
- PDF: 下载 PDF