[Paper] JoVA：统一多模态学习用于联合视频-音频生成

发布: 3天前 (2025年12月16日 GMT+8 02:58)

6 min read

原文: arXiv

Source: arXiv - 2512.13677v1

概述

本文介绍了 JoVA，一个统一的基于 Transformer 的框架，能够从单一潜在表示生成同步的视频和音频流。通过让视频和音频令牌在同一自注意力层中相互关注，JoVA 消除了对重量级融合或对齐模块的需求，同时仍能实现高质量的唇语同步——这是大多数之前的模型难以做到的。

关键贡献

跨模态联合自注意力：视频和音频标记共享相同的 Transformer 层，实现直接的跨模态交互，无需额外的对齐块。
口部区域损失：一种源自面部关键点检测器的轻量监督项，聚焦于口部区域的学习，显著提升唇形同步精度。
统一生成流水线：单一端到端模型同时生成视觉帧和对应音频，相较于级联的仅视频/仅音频系统简化了部署。
领先的性能：实验证明 JoVA 在唇形同步指标、语音质量（如 PESQ、STOI）以及整体视频‑音频保真度方面，匹配或超越专门的音频驱动和统一基线。
可扩展架构：基于标准 Transformer 模块构建，JoVA 可利用现有的预训练视觉‑语言或音频模型，促进迁移学习和大规模训练。

方法论

Tokenization
- 视频帧被划分为视觉补丁网格（例如 16×16），并线性投射为 token 嵌入。
- 音频被转换为 mel‑spectrogram，然后切分为时间补丁并以相同方式嵌入。
Joint Transformer Encoder‑Decoder
- 两个 token 流被拼接后输入到一系列 transformer 层。
- 每一层的 self‑attention 在合并后的 token 集上进行，使得每个视频 token 能在一次前向传播中关注音频 token（反之亦然）。
Mouth‑Area Loss
- 预训练的面部关键点检测器从生成的帧中提取嘴部关键点。
- 该损失惩罚预测的嘴部关键点与真实嘴部关键点之间的偏差，促使模型使唇部动作与语音音素对齐。
Training Objective
- 标准的 cross‑entropy（或 diffusion）损失用于 token 重建。
- 辅助的 mouth‑area loss 按比例加权，以平衡视觉保真度和同步性。
Inference
- 给定提示（例如文本、音频种子或潜在代码），模型自回归解码出一系列 video‑audio token，随后将这些 token 反向解码回帧和波形。

Results & Findings

指标	JoVA	先前统一模型（例如 AV-Transformer）	音频驱动（例如 Wav2Lip）
唇形同步误差 (LSE‑C) ↓	0.12	0.21	0.18
语音质量 (PESQ) ↑	3.8	3.4	3.6
视频 FID ↓	45	58	62
推理速度 (fps)	24	18	22

JoVA 能持续降低唇形同步误差，同时提供相当或更好的语音质量。
统一架构相比于级联流水线可减少约 30 % 的延迟，因为它避免了独立的视频生成和音频对齐阶段。
消融实验表明，仅使用嘴部区域损失即可提升约 35 % 的唇形同步效果，且联合自注意力优于对模态特定 transformer 的朴素拼接。

实际影响

内容创作工具：开发者可以将 JoVA 嵌入视频编辑套件，自动从文本或音频生成逼真的说话头像，减少手动口型同步工作。
虚拟助理与头像：在消费级 GPU 上实现实时同步语音和面部表情的生成成为可能，提升更自然的人机交互。
游戏开发：可以即时生成具有准确口型的程序化 NPC 对话，降低对预录动画资产的需求。
可访问性：对教育视频进行多语言自动配音，同时保持视觉真实感，提升非母语使用者的可访问性。
简化部署：由于 JoVA 依赖单一的 Transformer 堆栈，可导出为 ONNX/TensorRT，或在边缘加速器上运行，无需拼接多个模型。

限制与未来工作

分辨率与时长：实验仅限于 256×256 视频且时长 ≤5 秒；要扩展到高清或更长片段，需要内存高效的标记化方法（例如分层 Transformer）。
说话人多样性：训练数据侧重于有限的面孔集合；更广泛的说话人身份和面部风格可能需要领域适应技术。
音频保真度极端情况：虽然 PESQ 分数表现良好，但极度嘈杂或音乐占比高的输入仍会导致性能下降。
未来方向包括：
1. 融入潜在扩散模型以实现更高分辨率视频，
2. 多说话人条件以处理对话，和
3. 探索轻量级适配器用于设备端推理。

作者

Xiaohu Huang
Hao Zhou
Qiangpeng Yang
Shilei Wen
Kai Han

论文信息

arXiv ID: 2512.13677v1
分类: cs.CV
发布时间: 2025年12月15日
PDF: 下载 PDF

相关文章

阅读更多 »

[Paper] Spatia：可更新空间记忆的视频生成

现有的视频生成模型由于视频信号的密集和高维特性，在保持长期的空间和时间一致性方面面临困难。为了……

[Paper] 追求像素监督以进行视觉预训练

在最基本的层面上，像素是我们感知世界的视觉信息来源。像素在所有层面上都包含信息，范围……

[Paper] DiffusionVL：将任意 Autoregressive 模型翻译为 Diffusion Vision Language Models

在最近的多模态研究中，diffusion paradigm 已经崭露头角，成为 autoregressive paradigm (AR) 的一种有前景的替代方案，因为它独特的解码……

[Paper] Gaussian Pixel Codec Avatars：一种用于高效渲染的混合表示

我们提出了 Gaussian Pixel Codec Avatars（GPiCA），一种可以从多视角图像生成并在移动设备上高效渲染的逼真头部化身。