[Paper] Klear: 统一多任务音视频联合生成
发布: (2026年1月8日 GMT+8 02:03)
7 min read
原文: arXiv
Source: arXiv - 2601.04151v1
概述
本文提出了 Klear,一个统一的框架,既可以生成同步的音视频内容,也能处理单模态任务(仅音频或仅视频)。通过重新设计模型架构、训练流水线和数据收集过程,作者实现了紧密的唇语对齐、高视觉保真度以及强大的泛化能力——解决了现有生成系统中长期存在的不同步和单模态退化问题。
关键贡献
- 单塔架构,采用统一的 DiT(Diffusion Transformer)块和 Omni‑Full Attention 机制,能够联合处理音频、视频和文本,实现紧密的跨模态对齐。
- 渐进式多任务训练,随机遮蔽模态并遵循多阶段课程,防止单模态崩溃,促进稳健的音视频世界知识学习。
- 大规模密集字幕数据集(首创),通过自动化流水线为数百万音视频‑字幕三元组进行标注和过滤,确保严格的时间对齐。
- 展示了 最先进的性能,在一系列任务(联合生成、仅音频合成、仅视频合成以及指令跟随)上取得与 Veo 3 等专有系统相当的结果。
- 可扩展的设计,得益于统一的注意力和扩散骨干网络,可在海量数据集上训练而不牺牲推理速度。
方法论
-
模型设计 – Klear 将音频、视频帧和文本提示视为单一的 token 序列。DiT 块(扩散式 Transformer)使用 Omni‑Full Attention 处理该序列,在每一层计算跨所有模态的完整自注意力,确保音频线索直接影响视频生成(例如唇部动作),反之亦然。
-
训练方案 –
- 随机模态遮蔽: 在每个训练步骤中,遮蔽掉一种或多种模态,迫使模型从剩余信号中重建缺失部分。这样得到的单一模型能够进行联合生成和单模态生成。
- 课程阶段: 训练从容易的(高质量、对齐良好的片段)逐步过渡到更难的示例(噪声、分布外数据),逐步提升模型的鲁棒性。
-
数据策划 – 自动化流水线抓取公共视频平台,运行语音转文本和视觉字幕模型,然后执行严格的时间对齐检查和质量过滤。最终得到一个多模态数据集,包含 密集字幕(每个短视频片段的句子级描述),为语义和时序两方面提供丰富的监督。
结果与发现
- 音视频同步: 测得的唇读错误率相比之前的开源基线下降超过30%,表明接近人类的对齐水平。
- 视觉保真度: 在标准视频合成基准上,FID 分数提升了 0.12,同时保留了细粒度细节(例如面部表情)。
- 指令遵循: 在新推出的多模态指令基准上,Klear 的成功率比现有最好的开源模型高出 45%,并且匹配商业 Veo 3 系统的性能。
- 泛化能力: 在分布外领域(例如动画卡通、低光视频)评估时,Klear 保持了超过 80% 的内部领域性能,展示了课程学习和大规模数据的有效性。
实际意义
- 内容创作流水线: 开发者可以将 Klear 集成到视频编辑工具中,实现自动生成同步配音或为现有素材配音,无需手动口型同步。
- 交互式媒体与游戏: 实时生成角色语音和面部动画成为可能,降低对预先录制素材的需求,并实现动态 NPC 对话。
- 可及性: 可自动从音频或带字幕的视频生成手语视频,提升可及性服务。
- 多模态助手: 支持语音的代理可以即时生成简短的解释视频,使用同一模型完成音频解说和视觉示例。
- 可扩展训练: 统一的架构和数据流水线为其他团队构建大规模多模态生成模型提供了蓝图,无需将独立的音频和视频网络拼接在一起。
限制与未来工作
- 计算需求: 训练 Klear 仍然需要多 GPU 集群和大量的扩散步骤,这对小型实验室可能是难以承受的。
- 数据集偏差: 尽管数据管道会过滤质量,但源视频仍然带有文化和语言偏见,可能影响生成的公平性。
- 时间分辨率: 非常快速的语音或快速的场景切换仍可能导致轻微错位;更细粒度的时间建模是一个未解决的挑战。
- 未来方向: 作者建议探索更高效的扩散采样器,加入显式的音素到视觉音素映射以实现更紧密的唇形同步,并扩展 dense‑caption 数据集以覆盖更多语言和领域。
作者
- Jun Wang
- Chunyu Qiang
- Yuxin Guo
- Yiran Wang
- Xijuan Zeng
- Chen Zhang
- Pengfei Wan
论文信息
- arXiv ID: 2601.04151v1
- Categories: cs.CV, cs.AI, cs.MM, cs.SD
- Published: 2026年1月7日
- PDF: 下载 PDF