[Paper] 一般状态空间中扩散模型的基础:自成体系的介绍

发布: (2025年12月5日 GMT+8 02:55)
7 min read
原文: arXiv

Source: arXiv - 2512.05092v1

概览

扩散模型已成为生成图像、音频乃至文本的首选技术,但大多数教程假设数据位于欧几里得空间。本文打破了这一限制,构建了一个 单一、完整的理论,既适用于连续域(例如像素值),也适用于离散结构(例如 token 序列)。通过统一随机微分方程(SDE)与连续时间马尔可夫链(CTMC),作者为开发者提供了一条清晰的路线图,帮助将基于扩散的生成扩展到任何类型的数据。

关键贡献

  • 统一框架:将扩散视为在任意状态空间上进行——连续的 ℝⁿ、有限字母表或混合空间。
  • 离散时间与连续时间推导 并列展示,说明前向噪声核如何转化为逆向时间动力学。
  • 通用 ELBO 形式化:在高斯和分类腐蚀下均能恢复标准训练损失。
  • 前向腐蚀核目录(高斯、均匀、遮蔽/吸收等)并分析每种核对逆过程的影响。
  • 教学层次:为新人提供温和的入门,为实践者提供综合概述,为连续扩散专家提供深度理论桥梁。
  • 可复用的证明工具箱(Fokker–Planck 方程、主方程、变分恒等式),可直接嵌入后续扩散研究。

方法论

  1. 前向过程

    • 连续:在每个时间步应用高斯马尔可夫核,在极限下得到形式为

      dx = f(x,t)dt + g(t)dW
      

    的 SDE。

    • 离散:使用马尔可夫转移矩阵(例如均匀混合、token 遮蔽或吸收状态),在有限字母表上定义 CTMC。
  2. 逆向过程

    • 通过 SDE 的 Fokker–Planck 方程和 CTMC 的 主方程 推导时间反向动力学。
    • 表明逆向核可以表示为一个学习的神经网络,用于近似真实的逆向漂移或转移概率。
  3. 变分目标

    • 从数据与噪声潜变量的联合分布出发。
    • 使用标准 ELBO 手法得到可计算的损失,该损失分解为重构项和 KL 项,对任意状态空间均成立。
  4. 离散与连续的桥接

    • 将离散转移核映射到连续时间生成子上,凸显数学类比(如扩散系数 ↔ 转移率矩阵)。
    • 提供一套“词典”,帮助实践者将图像扩散的直觉转化为 token 扩散(反之亦然)。

整个推导保持在开发者熟悉基本概率和神经网络的水平,无需深入的随机微积分即可跟随。

结果与发现

  • 理论等价性:对离散 CTMC 推导的 ELBO 在状态空间为 ℝⁿ、前向核为高斯时,恰好化简为熟悉的扩散损失。
  • 核的影响:不同的前向腐蚀会导致显著不同的逆向动力学;例如遮蔽核产生稀疏梯度,对语言模型更易学习。
  • 经验性检查(示例实验):在 MNIST 手写数字上训练一个简单的分类扩散模型(将数字视为 10 类标签),在使用相同 ELBO 时,其性能与连续像素扩散模型相匹配。
  • 证明复用:作者展示仅需少数核心恒等式(如马尔可夫过程的测度变换),即可重新推导出大多数已有的扩散结果,验证了框架的统一力量。

实际意义

  • 更广的数据模态:工程师现在可以为图、分子或代码 token 设计扩散管线,而无需从头推导数学。
  • 自定义腐蚀策略:通过选择符合领域结构的前向核(例如仅遮蔽语法合法的 token),逆向模型学习更高效,可能降低训练时间并提升样本质量。
  • 可互操作的库:论文的模块化视角鼓励构建扩散库,将前向核设为插件组件,轻松在高斯噪声、均匀混合或任务特定腐蚀之间切换。
  • 混合模型:对于多模态任务(图像 + 说明),可以在像素空间运行连续 SDE,在说明上运行 CTMC,并使用共享的潜在时间表。
  • 更好调试:通过主方程 / Fokker–Planck 方程理解前向‑逆向关系,为开发者提供分析工具,以诊断训练不稳定(如噪声时间表不匹配)。

局限性与未来工作

  • 本文侧重 理论统一,仅提供了最小的经验验证;大规模基准(如 ImageNet、超大语言模型)留待后续研究。
  • 离散核的可扩展性:虽然框架支持任意转移矩阵,但为极大词表构建高效且表达力强的核仍是未解的工程难题。
  • 将理论扩展到 连续‑离散混合空间(例如在流形上带有分类属性的扩散)已被提及,但未深入探讨。
  • 作者建议研究 自适应噪声时间表,使其在不同状态空间类型间共同优化,并形式化 隐私保护扩散,即前向核融合差分隐私噪声。

作者

  • Vincent Pauline
  • Tobias Höppe
  • Kirill Neklyudov
  • Alexander Tong
  • Stefan Bauer
  • Andrea Dittadi

论文信息

  • arXiv ID: 2512.05092v1
  • 分类: stat.ML, cs.LG
  • 发表时间: 2025 年 12 月 4 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »