[论文] MAViD:用于音频-视觉对话理解与生成的多模态框架

发布: (2025年12月3日 GMT+8 02:55)
6 min read
原文: arXiv

Source: arXiv - 2512.03034v1

概览

MAViD 引入了一种 多模态音视频对话系统,能够既理解用户查询,又生成逼真的、长篇幅的视频加语音响应。通过解决深度多模态融合和可控生成这两大挑战,该工作将对话代理从仅文本聊天机器人提升到沉浸式、类人交互。

主要贡献

  • Conductor‑Creator 架构:将推理(Conductor)与内容合成(Creator)分离,实现对动作和语音的细粒度控制。
  • 混合 AR‑Diffusion 生成:将自回归音频模型与基于扩散的视频模型相结合,产出高保真、时间一致的视听片段。
  • 新颖的多模态融合模块:显式关联连续视频片段和音频流,保持长对话中的身份、音色和语调一致性。
  • 端到端训练流水线:在统一数据集上联合优化理解、指令生成和视听合成。
  • 广泛评估:展示了连贯、上下文感知的长时对话,并在视觉/音频质量上优于以往非交互基线。

方法论

  1. 理解与指令生成(Conductor)

    • 接收多模态用户查询(文本、音频、视频),进行感知、推理和规划。
    • 将期望的响应拆解为两条指令流:动作计划(视觉上应发生什么)和 语音计划(应说什么,语调和音色如何)。
  2. 内容合成(Creator)

    • 音频分支:自回归 Transformer 在语音计划的条件下预测梅尔频谱帧,确保自然的韵律和说话人一致性。
    • 视频分支:扩散模型(DiT 风格)根据动作计划生成视频帧,并以音频输出为引导,保持唇形同步和手势对齐。
  3. 融合模块

    • 通过跨模态注意力和时间卷积将音视频流在连续片段之间桥接,使 30 秒的对话呈现为单一连续场景,而非碎片化片段。
  4. 训练

    • 在精心策划的音视频对话数据集上进行训练,每轮对话包含用户输入、真实响应视频和转录的语音。
    • 损失函数综合语言建模、音频重建(L1 + 对抗)、视频扩散(去噪得分匹配)以及多模态一致性项。

结果与发现

  • 连贯性:人工评估显示,MAViD 的对话在上下文连贯性上比最强基线(文本到视频模型 + 独立 TTS)高出 23 %。
  • 音视频同步:唇形同步误差从基线的 0.42 s 降至 0.07 s,接近真实录制水平。
  • 身份保持:在超过 30 秒的交互中,说话人身份(面容、声音音色)在 >95 % 的情况下保持稳定,显著优于先前仅使用扩散的流水线(易出现漂移)。
  • 生成速度:混合 AR‑Diffusion 设计使推理时间比纯扩散方法快 2.3 倍,单块 RTX 4090 上实现近实时交互成为可能。

实际意义

  • 虚拟助理与客服:部署能够 展示 产品演示并 讲解 操作的代理,降低对静态截图或独立视频片段的依赖。
  • 在线教育与培训:实时生成个性化教程视频,依据学习者提问动态调整,保持一致的讲师形象。
  • 游戏与 XR:为交互式 NPC 注入可信的语音和姿态,实现更丰富的剧情驱动体验,无需手工制作过场动画。
  • 内容创作:自动化生成解说视频或营销短片,脚本与视觉分镜均来源于单一多模态提示。

局限性与未来工作

  • 数据集偏差:训练语料局限于少数领域(如室内场景、英语说话者),可能影响对户外或多语言环境的泛化能力。
  • 计算需求:虽比纯扩散更快,但在边缘设备上实现实时仍需硬件加速。
  • 细粒度控制:当前指令粒度仅限于动作 vs. 语音;未来版本可向开发者开放风格、情感或摄像机参数等控制。
  • 评估指标:长时多模态连贯性的客观度量仍是未解研究问题,作者计划为此开发基准套件。

作者

  • Youxin Pang
  • Jiajun Liu
  • Lingfeng Tan
  • Yong Zhang
  • Feng Gao
  • Xiang Deng
  • Zhuoliang Kang
  • Xiaoming Wei
  • Yebin Liu

论文信息

  • arXiv ID: 2512.03034v1
  • 分类: cs.CV
  • 发表时间: 2025 年 12 月 2 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »