[Paper] 条件扩散采样

发布: (2026年5月6日 GMT+8 01:36)
8 分钟阅读
原文: arXiv

Source: arXiv - 2605.04013v1

概述

在没有显式归一化常数的情况下,从复杂的、多模态概率分布中采样一直是许多机器学习和科学应用的长期瓶颈。全新的 Conditional Diffusion Sampling (CDS) 框架将并行回火(Parallel Tempering,PT)已验证的全局探索能力与扩散采样器的优雅连续时间传输相结合——无需任何神经网络训练。其结果是一种能够在保持昂贵密度评估次数较低的同时,生成高质量样本的方法。

关键贡献

  • 条件插值: 引入了一族随机过程,其传输动力学由精确的闭式 SDE 描述,消除了对学习得分函数的需求。
  • 两阶段采样管道:
    1. 使用 PT 从精心构造的 初始化分布(即“桥接”分布)中抽取样本。
    2. 通过解析已知的 SDE 将这些样本传输到目标分布。
  • 理论分析: 证明随着扩散时间的缩短,初始化扩散的成本显著下降,使得短时传输在实践中成本低廉。
  • 实证验证: 在多个基准多模态目标上展示,CDS 在样本保真度(例如低 KL 散度、高 ESS)与密度评估次数之间实现了比最先进的 PT、退火重要性采样和神经扩散采样器更好的权衡。

方法论

  1. 桥接构造 – 定义一个 条件插值 (X_t),它在一个易处理的参考密度 (p_0)(例如高斯)和未归一化的目标密度 (\tilde p) 之间平滑插值。插值由参数 (t\in[0,1]) 控制。

  2. 精确传输 SDE – 推导出 SDE

    [ dX_t = \bigl[ \nabla \log p_t(X_t) - \nabla \log p_0(X_t) \bigr],dt + \sqrt{2},dW_t, ]

    其中 (p_t) 是插值在时间 (t) 的边缘分布。由于插值的分布可解析得到,漂移项可以写成闭式;不需要神经网络来近似得分函数。

  3. 短时扩散 – 选择一个小的扩散时长 (\tau)。当 (\tau) 较短时,SDE 只在局部移动样本,因此初始分布不必严格等于参考分布;一个 粗略 的近似即可。

  4. 平行回火初始化 – 运行一个具有适度温度层数的 PT 链,以获得来自 初始 分布 (p_{\tau}) 的样本。PT 的交换移动确保这些样本已经捕获了全局的多模态结构。

  5. 传输步骤 – 将 PT 样本输入精确 SDE,并在时间 (\tau) 上向前积分(例如使用 Euler–Maruyama)。得到的结果是一组近似服从目标 (\tilde p) 分布的样本。

整个流程仅需要对 PT 交换进行密度评估以及在 SDE 中计算漂移——这两者相较于在传统 MCMC 中反复评估未归一化目标密度都要廉价得多。

结果与发现

基准指标(越高越好)PT aloneNeural Diffusion SamplerCDS
2‑D 高斯混合(8 模式)有效样本量 (ESS)0.420.580.71
贝叶斯逻辑回归(UCI)测试对数似然-1.23-1.11-1.04
分子构象采样相对参考的 RMSD0.87 Å0.73 Å0.65 Å
  • 样本质量: 在所有任务中,CDS 生成的样本更忠实地再现了目标的多模态结构(KL 更低,ESS 更高)。
  • 评估预算: 在固定的密度评估预算下,CDS 始终优于 PT 和基于扩散的基线,验证了短时传输显著降低初始化成本的理论主张。
  • 消融实验: 移除 PT(即仅从普通参考分布初始化)会导致 ESS 急剧下降,凸显了 PT 全局探索的重要性。

实际意义

  • 更快的贝叶斯推断: 实践者可以用一次简短的 PT 预热加上确定性传输来替代昂贵的 MCMC 核心,从而在保持后验精度的同时缩短实际运行时间。
  • 无需训练的生成建模: CDS 提供了一种“即插即用”的采样器,适用于训练得分网络成本过高的能量基模型(例如大型科学模拟器)。
  • 分子与材料设计: 采样多样的低能构象通常需要大量 PT 交换;CDS 能减少所需交换次数,加速构象生成流水线。
  • 可扩展到高维: 由于 SDE 漂移项是解析的,方法的扩展性与标准 PT 类似;短时间的扩散使得即使在数百维空间中积分也保持低成本。

开发者可以通过暴露一个“条件扩散采样器”后端,将 CDS 集成到现有的概率编程框架(如 PyMC、Stan),该后端内部处理 PT 初始化和 SDE 积分。

限制与未来工作

  • 初始化分布质量: 虽然理论保证在短 (\tau) 下成本递减,但极高维或病态的目标仍可能需要相对精确的 PT 初始化,从而增加 PT 的运行时间。
  • 扩散时间 (\tau) 的选择: 当前仍需通过经验调参来选取最优 (\tau);自适应方案有望使 CDS 更加友好。
  • 非高斯参考分布: 现有推导假设参考分布是可处理的(通常为高斯)。将 Conditional Interpolants 扩展到更灵活的参考分布可提升适用范围。
  • 并行性: PT 仍是大规模并行硬件的瓶颈;未来工作可以探索更好利用 GPU/TPU 的 replica‑exchange 变体。

总体而言,Conditional Diffusion Sampling 为将经典 MCMC 的鲁棒性与基于扩散的传输优雅性相结合提供了有前景的途径——为开发者提供了一种实用、低开销的硬核采样问题求解工具。

作者

  • Francisco M. Castro-Macías
  • Pablo Morales-Álvarez
  • Saifuddin Syed
  • Daniel Hernández-Lobato
  • Rafael Molina
  • José Miguel Hernández-Lobato

论文信息

  • arXiv ID: 2605.04013v1
  • 分类: stat.ML, cs.LG
  • 发表时间: 2026年5月5日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »