[Paper] Harmony:通过跨任务协同实现音频与视频生成的和谐

发布: (2025年11月27日 GMT+8 00:53)
6 min read
原文: arXiv

Source: arXiv - 2511.21579v1

概览

论文 “Harmony: Harmonizing Audio and Video Generation through Cross‑Task Synergy” 解决了生成式 AI 的核心瓶颈:创建音画内容时声音与图像保持紧密同步。通过剖析当前基于扩散的模型为何会出现不同步的现象,作者提出了一套技术,大幅提升对齐度且不牺牲视觉或听觉质量。

主要贡献

  • 跨任务协同训练 (Cross‑Task Synergy training) – 同时训练音频驱动的视频生成和视频驱动的音频生成,利用每一种模态作为对另一种模态的强监督信号。
  • 全局‑局部解耦交互 (Global‑Local Decoupled Interaction, GLDI) 模块 – 将粗粒度全局注意力与细粒度局部时间交互分离,实现高效且精确的时序对齐。
  • 同步增强的无分类器引导 (Synchronization‑Enhanced Classifier‑Free Guidance, SyncCFG) – 修改标准 CFG 推理步骤,以分离并增强跨模态对齐成分。
  • 最先进的实验结果 – 在基准数据集上相较于已有开源方法,实现了更高的保真度和显著更好的细粒度音画同步。

方法论

  1. 问题诊断 – 作者识别出联合扩散中的三种失效模式:

    • 对应漂移 (Correspondence Drift):音频和视频的噪声潜在更新随时间逐渐分离。
    • 全局注意力低效 (Inefficient Global Attention):标准 Transformer 漏掉实现同步所需的细微时间线索。
    • 模态内部 CFG 偏差 (Intra‑modal CFG Bias):经典 CFG 加强条件生成但忽视跨模态时序。
  2. 跨任务协同 (Cross‑Task Synergy) – Harmony 并非训练单一的音频‑到‑视频或视频‑到‑音频模型,而是在同一扩散框架内交替进行两项任务。一个任务的输出(例如生成的视频)充当另一任务的“真实”引导,锚定潜在轨迹并降低漂移。

  3. GLDI 模块 – 将扩散主干拆分为:

    • 全局分支:使用轻量级注意力图捕获整体场景上下文。
    • 局部分支:聚焦短时窗口,采用专门的交互层将音频波形与视频帧序列对齐。

    这种解耦在保持唇形同步、脚步声等细粒度时序需求的同时,使计算量保持可接受。

  4. SyncCFG – 推理时,引导项被分解为 对齐 部分和 内容 部分。SyncCFG 放大对齐项,确保模型在满足原始提示的同时,优先保持音视频同步。

结果与发现

  • 量化提升:Harmony 将 SyncScore(时序对齐指标)提升约 30 %,同时提升视觉质量的 FID/IS 分数。
  • 质性改进:用户研究显示,在快速语音、乐器演奏和动态动作场景等挑战性情形下,参与者明显感受到 Harmony 生成的片段更“同步”。
  • 效率:GLDI 模块相比全分辨率 Transformer 将注意力相关 FLOPs 降低约 40 %,在单块 RTX 4090 上生成 5 秒片段的时间不足 8 秒。

实际意义

  • 内容创作流水线:视频编辑和游戏开发者现在可以使用单一开源模型同时生成背景音乐/音效和匹配的画面,减少手动唇形同步或配音工作。
  • 交互媒体与 VR:实时化身或虚拟助理在说话和手势上能够保持紧密的音画一致性,提升用户沉浸感。
  • 无障碍工具:自动字幕或手语生成系统可受益于同步的音视频输出,为聋哑或听力受限用户提供更可靠的体验。
  • 快速原型:从事 AI 驱动广告或社交媒体内容的初创公司可以将 Harmony 作为即插即用模块集成,降低对独立音频生成和视频生成堆栈的需求。

局限性与未来工作

  • 领域泛化:模型在经过精心策划的数据集(如语音驱动片段、音乐表演)上训练。对高度风格化或非自然内容(如抽象动画)的表现可能下降。
  • 长时一致性:虽然短片段(≤10 s)保持良好对齐,但在更长叙事中维持同步仍是挑战。
  • 硬件需求:尽管 GLDI 提升了效率,高质量生成仍需现代 GPU;轻量级推理变体仍是开放研究方向。

未来工作可以探索针对更长序列的课程学习、针对特定媒体风格的领域自适应微调,以及与文本到语音模型的结合,以构建完整的端到端多模态生成套件。

作者

  • Teng Hu
  • Zhentao Yu
  • Guozhen Zhang
  • Zihan Su
  • Zhengguang Zhou
  • Youliang Zhang
  • Yuan Zhou
  • Qinglin Lu
  • Ran Yi

论文信息

  • arXiv ID: 2511.21579v1
  • 分类: cs.CV
  • 发布时间: 2025 年 11 月 26 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »

ChatGPT 正面临红色警报

大约三年多前,OpenAI把整个科技行业搅得一团乱。ChatGPT 推出时,即使被标榜为“low-key research preview”,它……