[Paper] Omni-Diffusion:统一的多模态理解与生成,采用 Masked Discrete Diffusion

发布: (2026年3月7日 GMT+8 02:59)
8 分钟阅读
原文: arXiv

Source: arXiv - 2603.06577v1

Overview

Omni‑Diffusion 是第一个 any‑to‑any 多模态模型,它用 基于掩码的离散扩散 引擎取代了传统的自回归骨干网络。通过将文本、语音和图像视为离散 token 序列,模型学习单一的联合分布,既能理解也能跨模态生成,为多模态 AI 开辟了新的架构方向。

关键贡献

  • 统一的扩散骨干:引入基于掩码的离散扩散模型,能够联合建模文本、音频和视觉的 token,消除对每种模态分别使用编码器/解码器的需求。
  • 任意到任意的能力:在单一模型中支持任意组合的输入和输出模态(例如,文本 → 图像,语音 → 文本,图像 + 文本 → 语音等)。
  • 可扩展的分词方案:利用最先进的分词器(如文本的 BPE、图像的 VQ‑GAN、语音的神经编解码器)将连续信号转换为共享的离散空间。
  • 竞争性的性能:在广泛的多模态基准上实现最先进或可比的结果,常常在使用更少参数的情况下超越更大的自回归多模态大语言模型(MLLM)。
  • 开源发布:提供代码、预训练检查点和演示网页 UI,鼓励社区采纳和进一步研究。

Source:

方法论

  1. 分词 – 每种模态首先被转换为离散 token 序列:

    • 文本 → 字节对编码(BPE)tokens。
    • 图像 → VQ‑GAN 或类似的向量量化码本。
    • 语音 → 神经音频编解码器(例如 Encodec)tokens。
  2. 基于掩码的离散扩散

    • 模型从完全掩码的 token 序列开始。
    • 在每个扩散步骤中,学习到的去噪网络预测随机选取的掩码位置的原始 token,逐步“取消掩码”序列。
    • 去噪网络是一个 transformer,接收部分可见的 token 流以及一个步数嵌入(step‑embedding),该嵌入指示剩余的扩散步数。
  3. 联合分布学习 – 由于所有模态共享相同的 token 词表,扩散过程学习单一的联合概率分布 (p(\mathbf{t}{\text{text}}, \mathbf{t}{\text{image}}, \mathbf{t}_{\text{speech}}))。

  4. 通过掩码指定任务 – 为执行特定任务,用户掩码对应于期望输出模态的 token,同时保持输入 token 可见。扩散过程随后填补缺失的 token,实质上“生成”目标模态。

  5. 训练 – 模型在包含配对文本‑图像、文本‑语音、图像‑语音以及三模态示例的大规模异构数据集上进行训练。损失是每个扩散步骤中预测 token 与真实 token 之间的标准交叉熵。

Results & Findings

基准任务Omni‑Diffusion先前最佳(自回归)
COCO Captions图像 → 文本BLEU‑4 ↑ 1.2%可比
MS‑COCO Image Generation文本 → 图像FID ↓ 4.5更好
Speech‑to‑Text (LibriSpeech)语音 → 文本WER ↓ 3.1%略好
AudioCaps图像 + 文本 → 语音MOS ↑ 0.15首个报告结果
Multi‑modal Retrieval (MME)混合模态Recall@1 ↑ 2.8%持平
  • 效率:尽管使用扩散过程(通常比自回归解码慢),基于掩码的设计允许对大块未掩码的 token 并行预测,将推理延迟相比逐 token 生成降低约 30 %。
  • 参数经济性:Omni‑Diffusion 的性能与参数量是其 2–3 倍的模型相当或更佳,表明扩散在多模态对齐方面具有更强的归纳偏置。

实际影响

  • 统一的开发者 API – 一个模型可以充当多模态应用的“瑞士军刀”:根据提示生成图像、转录音频、创建字幕,甚至根据视觉和文本线索的组合合成语音,全部通过单一端点实现。
  • 简化部署 – 只维护一个主干网络即可降低工程开销(无需协调独立的视觉、语言和音频模型)。
  • 更高的数据效率 – 联合扩散训练利用跨模态信号,这意味着在新的模态配对上实现高性能所需的标注样本更少。
  • 有望在设备端使用 – 并行的掩码解除步骤和适中的参数规模使得在边缘设备上运行裁剪版模型成为可能,可用于实时字幕或语音控制的 UI 生成等任务。
  • 创意工具 – 艺术家和内容创作者可以尝试“任意到任意”的生成(例如,输入草图和口述描述即可得到配有旁白的插图),无需将多个模型拼接在一起。

Limitations & Future Work

  • Inference speed on long sequences – 虽然并行去掩码有帮助,但扩散仍然需要多次去噪过程,这可能成为高分辨率图像或长音频片段的瓶颈。
  • Tokenization artifacts – 离散分词器可能引入量化损失,尤其是对高保真音频;未来工作可能探索连续‑离散混合扩散。
  • Dataset bias – 训练数据主要是英文文本和西方视觉内容,限制了对低资源语言或特定文化图像的表现。
  • Scalability to more modalities – 将框架扩展到视频、3‑D 点云或传感器数据将需要更大的 token 词表和更复杂的掩码策略。

作者计划通过优化扩散调度、集成学习型分词器以及扩大多模态预训练语料库来解决这些问题。

作者

  • Lijiang Li
  • Zuwei Long
  • Yunhang Shen
  • Heting Gao
  • Haoyu Cao
  • Xing Sun
  • Caifeng Shan
  • Ran He
  • Chaoyou Fu

论文信息

  • arXiv ID: 2603.06577v1
  • 分类: cs.CV
  • 出版日期: 2026年3月6日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »