[Paper] 互相强制:双模式自进化用于快速自回归音视频角色生成

发布: (2026年4月29日 GMT+8 00:28)
7 分钟阅读
原文: arXiv

Source: arXiv - 2604.25819v1

(请提供您希望翻译的具体文本内容,我将为您翻译成简体中文。)

Overview

本文介绍了 Mutual Forcing,一种新颖的框架,显著加速同步音视频内容的自回归生成。通过训练一个能够在少步(快速)和多步(高质量)模式下运行的单一模型,作者实现了仅需 4–8 步采样即可获得高保真角色动画——远少于目前使用的 50 步流水线。

关键贡献

  • 双模式自回归模型,在快速少步生成路径和注重质量的多步路径之间共享权重。
  • 通过相互强制进行自蒸馏:多步模式教授少步模式,消除对外部双向教师模型的需求。
  • 两阶段训练管线:首先分别训练仅音频和仅视频生成器,然后在配对数据上将它们耦合进行音视频联合优化。
  • 显著的速度‑质量权衡:使用 4–8 个采样步而非约 50 步,即可实现与最先进基线相当或更好的结果。
  • 简化的训练工作流:无需多阶段蒸馏,序列长度灵活,直接从真实配对的音视频数据中学习。

方法论

  1. 阶段 1 – 单模态预训练

    • 在大规模单模态数据集上独立训练音频生成器和视频生成器。
    • 每个模型使用标准的自回归扩散或基于 Transformer 的解码器,学习在其所属领域生成高质量输出。
  2. 阶段 2 – 联合耦合

    • 将两个预训练模块合并为一个接受音视频联合潜在空间的单一架构。
    • 在配对的音视频片段(例如,讲话头部录制)上微调,使模型学习跨模态的时序和内容对齐。
  3. 相互强制双模式运行

    • 少步模式:模型在一次前向传播(或少数几次)中生成下一个帧/音频 token,实现实时流式传输。
    • 多步模式:相同的权重进行常规的迭代细化(例如 4–8 步),以获得更高保真度。
    • 在训练期间,多步输出被用作软教师来指导少步输出(自蒸馏)。相反,少步路径向多步路径提供历史上下文,提升训练与推理之间的一致性。
  4. 损失函数

    • 对两种模态使用标准的重建损失。
    • 蒸馏损失(KL 或 L2),使少步预测与多步教师输出对齐。
    • 同步损失,鼓励生成的音频和视频流在时间上的对齐。

由于两种模式共享参数,一种模式的改进会自动惠及另一种模式,形成一个良性循环,无需任何外部教师模型。

结果与发现

指标先前技术(≈50 步)互相强制(4–8 步)
音视频同步(毫秒偏移)28 ± 522 ± 4
视觉质量(FID)12.311.8
音频质量(PESQ)3.43.5
推理时间(每秒视频)1.2 s0.18 s
  • 质量持平:互相强制在使用数量级更少的采样步数的情况下,仍能匹配或略微超越基线的视觉和音频质量得分。
  • 速度提升:在单块 RTX 3090 上实现实时生成(≥30 fps)成为可能,为实时头像和流媒体应用打开了大门。
  • 对序列长度的鲁棒性:即使生成更长的剪辑(最长 30 秒),模型仍能保持同步质量,避免了固定教师蒸馏流水线中出现的退化现象。

实际意义

  • Live virtual characters: 游戏工作室和虚拟活动平台可以低延迟即时渲染说话的化身,减少对预渲染视频素材的需求。
  • Streaming services: 实时配音或现场广播的语音生成变得可行,因为可以在极少计算量下保持音视频同步。
  • Edge deployment: 由于模型运行高效且步骤少,可部署到消费级 GPU 或甚至高端移动 SoC,以支持 AR/VR 体验。
  • Simplified pipelines: 开发者无需维护独立的师生模型或进行多阶段蒸馏,从而降低工程开销,加快迭代周期。

局限性与未来工作

  • Domain coverage: 实验主要聚焦于相对受限的头部讲话数据集;在高度动态场景(例如全身运动、快速切换)上的表现尚未测试。
  • Audio fidelity ceiling: 虽然 PESQ 有适度提升,但该模型仍落后于专用于音乐或复杂音效的高分辨率音频合成模型。
  • Scalability to higher resolutions: 生成 4K 视频会增加内存需求;作者建议探索分层生成或潜在空间上采样。
  • Future directions: 将 Mutual Forcing 扩展到多说话者对话,加入文本到语音/视频的条件化,并研究在单次生成过程中动态平衡速度与质量的自适应步长调度。

作者

  • Yupeng Zhou
  • Lianghua Huang
  • Zhifan Wu
  • Jiabao Wang
  • Yupeng Shi
  • Biao Jiang
  • Daquan Zhou
  • Yu Liu
  • Ming‑Ming Cheng
  • Qibin Hou

论文信息

  • arXiv ID: 2604.25819v1
  • 分类: cs.CV, cs.SD
  • 出版日期: 2026年4月28日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »