[Paper] 互相强制：双模式自进化用于快速自回归音视频角色生成

发布: 20小时前 (2026年4月29日 GMT+8 00:28)

7 分钟阅读

原文: arXiv

Source: arXiv - 2604.25819v1

（请提供您希望翻译的具体文本内容，我将为您翻译成简体中文。）

Overview

本文介绍了 Mutual Forcing，一种新颖的框架，显著加速同步音视频内容的自回归生成。通过训练一个能够在少步（快速）和多步（高质量）模式下运行的单一模型，作者实现了仅需 4–8 步采样即可获得高保真角色动画——远少于目前使用的 50 步流水线。

阶段 1 – 单模态预训练
- 在大规模单模态数据集上独立训练音频生成器和视频生成器。
- 每个模型使用标准的自回归扩散或基于 Transformer 的解码器，学习在其所属领域生成高质量输出。
阶段 2 – 联合耦合
- 将两个预训练模块合并为一个接受音视频联合潜在空间的单一架构。
- 在配对的音视频片段（例如，讲话头部录制）上微调，使模型学习跨模态的时序和内容对齐。
相互强制双模式运行
- 少步模式：模型在一次前向传播（或少数几次）中生成下一个帧/音频 token，实现实时流式传输。
- 多步模式：相同的权重进行常规的迭代细化（例如 4–8 步），以获得更高保真度。
- 在训练期间，多步输出被用作软教师来指导少步输出（自蒸馏）。相反，少步路径向多步路径提供历史上下文，提升训练与推理之间的一致性。
损失函数
- 对两种模态使用标准的重建损失。
- 蒸馏损失（KL 或 L2），使少步预测与多步教师输出对齐。
- 同步损失，鼓励生成的音频和视频流在时间上的对齐。

由于两种模式共享参数，一种模式的改进会自动惠及另一种模式，形成一个良性循环，无需任何外部教师模型。

Domain coverage: 实验主要聚焦于相对受限的头部讲话数据集；在高度动态场景（例如全身运动、快速切换）上的表现尚未测试。
Audio fidelity ceiling: 虽然 PESQ 有适度提升，但该模型仍落后于专用于音乐或复杂音效的高分辨率音频合成模型。
Scalability to higher resolutions: 生成 4K 视频会增加内存需求；作者建议探索分层生成或潜在空间上采样。
Future directions: 将 Mutual Forcing 扩展到多说话者对话，加入文本到语音/视频的条件化，并研究在单次生成过程中动态平衡速度与质量的自适应步长调度。