[Paper] Omni-Diffusion：统一的多模态理解与生成，采用 Masked Discrete Diffusion

发布: 3天前 (2026年3月7日 GMT+8 02:59)

8 分钟阅读

原文: arXiv

Source: arXiv - 2603.06577v1

Overview

Omni‑Diffusion 是第一个 any‑to‑any 多模态模型，它用 基于掩码的离散扩散 引擎取代了传统的自回归骨干网络。通过将文本、语音和图像视为离散 token 序列，模型学习单一的联合分布，既能理解也能跨模态生成，为多模态 AI 开辟了新的架构方向。

Source: …

分词 – 每种模态首先被转换为离散 token 序列：
- 文本 → 字节对编码（BPE）tokens。
- 图像 → VQ‑GAN 或类似的向量量化码本。
- 语音 → 神经音频编解码器（例如 Encodec）tokens。
基于掩码的离散扩散 –
- 模型从完全掩码的 token 序列开始。
- 在每个扩散步骤中，学习到的去噪网络预测随机选取的掩码位置的原始 token，逐步“取消掩码”序列。
- 去噪网络是一个 transformer，接收部分可见的 token 流以及一个步数嵌入（step‑embedding），该嵌入指示剩余的扩散步数。
联合分布学习 – 由于所有模态共享相同的 token 词表，扩散过程学习单一的联合概率分布 (p(\mathbf{t}{\text{text}}, \mathbf{t}{\text{image}}, \mathbf{t}_{\text{speech}}))。
通过掩码指定任务 – 为执行特定任务，用户掩码对应于期望输出模态的 token，同时保持输入 token 可见。扩散过程随后填补缺失的 token，实质上“生成”目标模态。
训练 – 模型在包含配对文本‑图像、文本‑语音、图像‑语音以及三模态示例的大规模异构数据集上进行训练。损失是每个扩散步骤中预测 token 与真实 token 之间的标准交叉熵。

基准	任务	Omni‑Diffusion	先前最佳（自回归）
COCO Captions	图像 → 文本	BLEU‑4 ↑ 1.2%	可比
MS‑COCO Image Generation	文本 → 图像	FID ↓ 4.5	更好
Speech‑to‑Text (LibriSpeech)	语音 → 文本	WER ↓ 3.1%	略好
AudioCaps	图像 + 文本 → 语音	MOS ↑ 0.15	首个报告结果
Multi‑modal Retrieval (MME)	混合模态	Recall@1 ↑ 2.8%	持平

统一的开发者 API – 一个模型可以充当多模态应用的“瑞士军刀”：根据提示生成图像、转录音频、创建字幕，甚至根据视觉和文本线索的组合合成语音，全部通过单一端点实现。
简化部署 – 只维护一个主干网络即可降低工程开销（无需协调独立的视觉、语言和音频模型）。
更高的数据效率 – 联合扩散训练利用跨模态信号，这意味着在新的模态配对上实现高性能所需的标注样本更少。
有望在设备端使用 – 并行的掩码解除步骤和适中的参数规模使得在边缘设备上运行裁剪版模型成为可能，可用于实时字幕或语音控制的 UI 生成等任务。
创意工具 – 艺术家和内容创作者可以尝试“任意到任意”的生成（例如，输入草图和口述描述即可得到配有旁白的插图），无需将多个模型拼接在一起。

Inference speed on long sequences – 虽然并行去掩码有帮助，但扩散仍然需要多次去噪过程，这可能成为高分辨率图像或长音频片段的瓶颈。
Tokenization artifacts – 离散分词器可能引入量化损失，尤其是对高保真音频；未来工作可能探索连续‑离散混合扩散。
Dataset bias – 训练数据主要是英文文本和西方视觉内容，限制了对低资源语言或特定文化图像的表现。
Scalability to more modalities – 将框架扩展到视频、3‑D 点云或传感器数据将需要更大的 token 词表和更复杂的掩码策略。

作者计划通过优化扩散调度、集成学习型分词器以及扩大多模态预训练语料库来解决这些问题。