[Paper] JoVA:统一多模态学习用于联合视频-音频生成

发布: (2025年12月16日 GMT+8 02:58)
6 min read
原文: arXiv

Source: arXiv - 2512.13677v1

概述

本文介绍了 JoVA,一个统一的基于 Transformer 的框架,能够从单一潜在表示生成同步的视频和音频流。通过让视频和音频令牌在同一自注意力层中相互关注,JoVA 消除了对重量级融合或对齐模块的需求,同时仍能实现高质量的唇语同步——这是大多数之前的模型难以做到的。

关键贡献

  • 跨模态联合自注意力:视频和音频标记共享相同的 Transformer 层,实现直接的跨模态交互,无需额外的对齐块。
  • 口部区域损失:一种源自面部关键点检测器的轻量监督项,聚焦于口部区域的学习,显著提升唇形同步精度。
  • 统一生成流水线:单一端到端模型同时生成视觉帧和对应音频,相较于级联的仅视频/仅音频系统简化了部署。
  • 领先的性能:实验证明 JoVA 在唇形同步指标、语音质量(如 PESQ、STOI)以及整体视频‑音频保真度方面,匹配或超越专门的音频驱动和统一基线。
  • 可扩展架构:基于标准 Transformer 模块构建,JoVA 可利用现有的预训练视觉‑语言或音频模型,促进迁移学习和大规模训练。

方法论

  1. Tokenization

    • 视频帧被划分为视觉补丁网格(例如 16×16),并线性投射为 token 嵌入。
    • 音频被转换为 mel‑spectrogram,然后切分为时间补丁并以相同方式嵌入。
  2. Joint Transformer Encoder‑Decoder

    • 两个 token 流被拼接后输入到一系列 transformer 层。
    • 每一层的 self‑attention 在合并后的 token 集上进行,使得每个视频 token 能在一次前向传播中关注音频 token(反之亦然)。
  3. Mouth‑Area Loss

    • 预训练的面部关键点检测器从生成的帧中提取嘴部关键点。
    • 该损失惩罚预测的嘴部关键点与真实嘴部关键点之间的偏差,促使模型使唇部动作与语音音素对齐。
  4. Training Objective

    • 标准的 cross‑entropy(或 diffusion)损失用于 token 重建。
    • 辅助的 mouth‑area loss 按比例加权,以平衡视觉保真度和同步性。
  5. Inference

    • 给定提示(例如文本、音频种子或潜在代码),模型自回归解码出一系列 video‑audio token,随后将这些 token 反向解码回帧和波形。

Results & Findings

指标JoVA先前统一模型(例如 AV-Transformer)音频驱动(例如 Wav2Lip)
唇形同步误差 (LSE‑C) ↓0.120.210.18
语音质量 (PESQ) ↑3.83.43.6
视频 FID ↓455862
推理速度 (fps)241822
  • JoVA 能持续降低唇形同步误差,同时提供相当或更好的语音质量。
  • 统一架构相比于级联流水线可减少约 30 % 的延迟,因为它避免了独立的视频生成和音频对齐阶段。
  • 消融实验表明,仅使用嘴部区域损失即可提升约 35 % 的唇形同步效果,且联合自注意力优于对模态特定 transformer 的朴素拼接。

实际影响

  • 内容创作工具:开发者可以将 JoVA 嵌入视频编辑套件,自动从文本或音频生成逼真的说话头像,减少手动口型同步工作。
  • 虚拟助理与头像:在消费级 GPU 上实现实时同步语音和面部表情的生成成为可能,提升更自然的人机交互。
  • 游戏开发:可以即时生成具有准确口型的程序化 NPC 对话,降低对预录动画资产的需求。
  • 可访问性:对教育视频进行多语言自动配音,同时保持视觉真实感,提升非母语使用者的可访问性。
  • 简化部署:由于 JoVA 依赖单一的 Transformer 堆栈,可导出为 ONNX/TensorRT,或在边缘加速器上运行,无需拼接多个模型。

限制与未来工作

  • 分辨率与时长:实验仅限于 256×256 视频且时长 ≤5 秒;要扩展到高清或更长片段,需要内存高效的标记化方法(例如分层 Transformer)。
  • 说话人多样性:训练数据侧重于有限的面孔集合;更广泛的说话人身份和面部风格可能需要领域适应技术。
  • 音频保真度极端情况:虽然 PESQ 分数表现良好,但极度嘈杂或音乐占比高的输入仍会导致性能下降。
  • 未来方向包括:
    1. 融入潜在扩散模型以实现更高分辨率视频,
    2. 多说话人条件以处理对话,和
    3. 探索轻量级适配器用于设备端推理。

作者

  • Xiaohu Huang
  • Hao Zhou
  • Qiangpeng Yang
  • Shilei Wen
  • Kai Han

论文信息

  • arXiv ID: 2512.13677v1
  • 分类: cs.CV
  • 发布时间: 2025年12月15日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »