[Paper] 高精度且维度无关的采样与扩散

发布: (2026年1月16日 GMT+8 02:58)
8 min read
原文: arXiv

Source: arXiv - 2601.10708v1

概述

扩散模型已成为从复杂的多模态数据(例如图像、音频或科学模拟)生成高质量样本的首选工具。然而,要将底层的连续时间扩散过程转化为实用的采样器,需要对微分方程进行离散化,而现有的离散化方法需要大量极小的步长——尤其是在要求极高采样精度时。本文提出了一种全新的求解器,显著降低了这一成本:迭代次数仅随目标精度 polylogarithmically 增长,且基本上与环境维度无关,而是取决于数据分布的一个适度的“有效半径”。

关键贡献

  • 多对数迭代复杂度:证明基于扩散的采样器只需 (O(\text{polylog}(1/ε))) 步即可达到误差 ε,这是首次对高精度保证实现此结果。
  • 维度无关界:运行时间 随原始维度 d 增长,而是随目标分布的 有效半径 变化,使该方法在极高维问题中仍可行。
  • 混合求解器设计:将扩散 ODE 的低阶多项式近似与 配点法(Lee‑Song‑Vempala, 2018)相结合,得到稳定且快速的积分器。
  • 近似得分的理论框架:即使仅有 近似 的得分函数 (∇ log p) 可用,保证仍然成立,匹配学习型扩散模型的实际情形。
  • 严格的误差分析:给出明确的常数和条件,说明求解器在何种情况下能够实现声称的精度,弥合经验扩散模型与可证明算法之间的差距。

方法论

  1. 问题设定 – 扩散采样器求解逆时间随机微分方程 (SDE)

    [ \mathrm{d}X_t = \bigl[f_t(X_t) - \nabla\log p_t(X_t)\bigr]\mathrm{d}t + \sqrt{2},\mathrm{d}W_t, ]

    其中 (p_t) 为中间分布,(f_t) 为已知漂移项。实际中我们只有一个 近似 的得分 (\tilde{s}_t\approx\nabla\log p_t)。

  2. 低阶多项式近似 – 在短时间区间 ([t_k, t_{k+1}]) 内漂移项是平滑的。作者用次数为 (m = O(\log(1/ε))) 的多项式来近似它。这将 ODE 简化为一个可解析求解的形式,误差仅为小的截断误差。

  3. 配点法 – 与其使用欧拉–马鲁扬(Euler–Maruyama)直接步进,作者在一组精心挑选的配点(Chebyshev 节点)上强制多项式解满足 ODE。这样得到一个线性系统,求解该系统即可得到多项式近似的系数。

  4. 迭代方案 – 将区间 ([0,T]) 划分为 (K = O(\log(1/ε))) 个子区间。每个子区间上,配点求解器产生高精度的更新,随后使用得到的状态作为下一个区间的起始点,循环进行。

  5. 误差传播分析 – 通过界定多项式近似误差和配点离散误差,作者证明生成样本与真实目标之间的全变差距离呈几何衰减,从而得到对 (1/ε) 的多对数(polylogarithmic)依赖。

结果与发现

指标传统离散化(例如,Euler)新的配点低阶求解器
达到 ε = 10⁻⁴ 所需的迭代次数≈ (O(d · ε^{-1}))(多项式)≈ (O(\log^{2}(1/ε)))(多对数)
对环境维度 d 的依赖线性 / 多项式仅通过有效半径 R(通常 ≪ √d)
分数 oracle 的要求精确或高精度的分数可在 (|\tilde{s}_t - s_t| \le δ)(δ 可适度)条件下工作
实证验证(合成多模态高斯)除非超过 10⁴ 步,否则误差较大误差 <10⁻³,且步数 <50

理论分析通过对合成高维高斯混合模型的实验得到补充,在这些实验中,新求解器能够以远少于标准 Euler‑Maruyama 或 Runge–Kutta 基线的步数匹配目标分布。

实际意义

  • 更快的扩散采样 – 开发者现在可以使用数量级更少的推理步骤生成高保真图像、音频或科学样本,从而降低 GPU 时间和能耗。
  • 可扩展到大规模模型 – 由于迭代次数不再随模型规模(维度)激增,拥有数十亿参数的扩散模型在实时应用(例如视频生成、交互式 AI)中变得更易处理。
  • 更低的内存占用 – 步骤减少意味着需要存储的中间潜在张量更少,便于在边缘设备或受限的云环境中部署。
  • 对不完美的得分网络的鲁棒性 – 该算法能够容忍学习得到的得分函数不可避免的近似误差,使其能够直接升级现有的扩散流水线。
  • 混合流水线的潜力 – 该配点框架可以与现有的加速技巧(例如无分类器引导、随机采样)结合,进一步推动速度‑质量的极限。

限制与未来工作

  • 有效半径假设 – 维度无关的保证依赖于目标分布具有有界的有效半径;病态的重尾分布可能违背此假设。
  • 配点求解的复杂度 – 每次迭代需要求解一个适度规模的线性系统;虽然相较于成千上万的欧拉步而言成本低,但仍会带来需要优化的开销(例如,通过 GPU 友好的求解器)。
  • 大规模数据上的实证验证 – 论文实验主要聚焦于合成基准;将该方法应用于最先进的图像扩散模型(如 Stable Diffusion)仍是一个开放的工程挑战。
  • 向随机离散化的扩展 – 当前分析是确定性的;引入随机噪声处理(如 SDE 求解器)可能扩大其适用范围。
  • 自适应区间选择 – 未来工作可以探索基于数据的子区间长度和多项式阶数的选择,以进一步在扩散轨迹的易区段减少步数。

结论:通过将低阶多项式近似与配点方法相结合,本文提供了一种 高精度、维度无关的扩散采样器,有望显著降低下一代生成式 AI 系统的推理成本。关注更快、更绿色的扩散流水线的开发者应留意该求解器实现的成熟进展。

作者

  • Khashayar Gatmiry
  • Sitan Chen
  • Adil Salim

论文信息

  • arXiv ID: 2601.10708v1
  • 分类: cs.LG, math.ST
  • 出版日期: 2026年1月15日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »