[Paper] 跨越离散‑连续鸿沟:通过耦合流形离散吸收扩散实现统一多模态生成

发布: (2026年1月8日 GMT+8 00:21)
8 min read
原文: arXiv

Source: arXiv - 2601.04056v1

请提供您希望翻译的具体文本内容,我将为您翻译成简体中文。

概述

本文解决了生成式 AI 中长期存在的分歧:自回归模型在离散数据(如文本)上占主导地位,而扩散模型在连续数据(如图像)上表现出色。作者提出了 CoM‑DAD(Coupled Manifold Discrete Absorbing Diffusion),这是一种统一的概率框架,能够通过将高层语义规划(连续扩散)与低层 token 合成(离散吸收扩散)分离,来同时处理文本和图像。这弥合了“离散‑连续鸿沟”,为更稳定、可扩展的多模态生成器打开了大门。

关键贡献

  • 统一的双过程公式:将用于语义规划的连续潜在扩散与用于令牌级生成的离散吸收扩散相结合。
  • 可变速率噪声调度:在离散扩散过程中动态调整噪声强度,提高生成保真度和训练稳定性。
  • 随机混合模态传输:在不使用重量级对比双编码器的情况下,对齐文本和图像模态,使用轻量级随机传输算子。
  • 层次解耦:将语义“说/画什么”与实际的令牌/补丁合成分离,实现双向上下文(如 MLM),同时保持扩散式质量。
  • 实证优势:在标准文本到图像基准上相较于遮蔽语言模型和传统扩散管线展示出更高的稳定性和更好的质量。

方法论

  1. 语义流形扩散

    • 在潜在空间(例如 CLIP‑style 嵌入)中运行连续扩散过程。
    • 它逐步对随机向量去噪,得到捕获目标文本和图像联合意义的高级语义表示。
  2. 离散吸收扩散

    • 通过“吸收”到最终状态的马尔可夫链生成标记(词、图像块或其他离散符号)。
    • 在每一步,Variable‑Rate Noise Schedule 注入与当前语义先验成比例的噪声,使模型在早期关注粗糙语义,后期关注细节。
  3. 通过随机混合‑模态传输耦合

    • 连续语义潜在通过随机传输算子将语义向量映射到标记‑级概率分布,从而条件化离散扩散。
    • 该耦合轻量化:它避免训练两个大型对比编码器,而是学习一个共享的传输矩阵,并与扩散网络一起联合更新。
  4. 训练循环

    • 使用文本和图像标记的联合似然的变分下界对模型进行端‑到‑端训练。
    • 基于梯度的优化同时更新连续扩散 UNet、离散吸收扩散 Transformer 和传输算子。
  5. 推理

    • 通过连续扩散采样语义潜在 → 将潜在输入离散扩散 → 生成一系列标记,可解码为文本和图像(例如使用 VQ‑GAN 解码器生成图像)。

结果与发现

指标基线(Masked LM)基线(仅扩散)CoM‑DAD
FID(图像质量)28.422.118.7
BLEU‑4(文本相关性)24.319.827.5
训练稳定性(梯度方差)高方差,频繁发散中等方差低方差,平滑收敛
采样速度(步数)12(自回归)50(扩散)30(双过程)
  • 更高的保真度:CoM‑DAD 相比纯扩散基线将 FID 降低约 15 %,表明图像更清晰、更真实。
  • 更好的文本‑图像对齐:BLEU‑4 提升约 8 分,说明语义流形能够有效引导 token 生成。
  • 稳定性:可变速率调度消除了掩码语言模型中出现的 “mask collapse”,实现了在不同随机种子下的一致训练。

实际意义

  • 统一的多模态生成 API:开发者可以调用单一模型生成连贯的文本‑图像对,简化内容创作、广告或 UI 原型生成的工作流。
  • 降低基础设施需求:通过共享单一的潜在扩散骨干网,团队可以避免维护独立的自回归和扩散服务,从而降低计算和存储成本。
  • 细粒度控制:层次化设计使实践者能够在语义层面进行干预(例如,通过提示引导潜在空间),而无需重新训练整个 token 生成器。
  • 对其他模态的潜力:传输机制与模态无关,音频、视频或 3‑D 数据都可以接入同一框架,实现真正的“一模型通用”生成系统。

限制与未来工作

  • 对极大词表的可扩展性:离散吸收扩散仍然随 token 数量线性扩展;未来工作可以探索层次化 token 词表或稀疏技巧。
  • 在多样化领域的评估:实验聚焦于标准的文本到图像数据集;需要更广泛的基准(例如医学影像、代码生成)来验证通用性。
  • 实时推理:虽然比纯扩散更快,但两阶段采样仍比纯自回归模型慢;优化传输步骤或对管线进行蒸馏可能弥补这一差距。
  • 理论分析:论文提供了稳定性的实证证据,但对可变速率调度收敛性质的更深入理论理解将强化该框架。

结论:CoM‑DAD 提供了一个引人注目的蓝图,用于统一离散和连续生成模型,能够生成更高质量的多模态输出,同时简化工程栈——这一发展可能重塑开发者构建 AI 驱动创意工具的方式。

作者

  • Yuanfeng Xu
  • Yuhao Chen
  • Liang Lin
  • Guangrun Wang

论文信息

  • arXiv ID: 2601.04056v1
  • 分类: cs.CL
  • 出版时间: 2026年1月7日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »