[Paper] Flow 采样:通过去噪条件过程学习从未归一化密度采样

发布: (2026年5月6日 GMT+8 01:07)
8 分钟阅读
原文: arXiv

Source: arXiv - 2605.03984v1

请提供您希望翻译的具体文本内容,我将为您翻译成简体中文。

概述

本文介绍了 Flow Sampling,一种新框架,教会神经网络从 未归一化 的概率密度中抽样——这些分布仅由能量(或得分)函数定义,无需任何训练数据。通过将扩散模型与流匹配思想相结合,作者实现了快速、无数据的抽样,甚至在球面和双曲流形等曲面空间上也能工作。

关键贡献

  • 无数据扩散训练:一个条件目标,回归到直接从目标能量导出的去噪漂移,而不是依赖数据样本的常规“噪声”漂移。
  • 插值过程:一种巧妙的技术,显著减少训练期间所需的昂贵能量函数评估次数。
  • 黎曼扩展:对常曲率流形(例如超球面、双曲空间)的闭式条件漂移,使得基于扩散的采样能够超越欧几里得空间。
  • 可扩展实现:在合成基准、肽构象生成、大规模摊销分子构象生成以及球面分布上进行演示,取得了业界领先的结果。
  • 摊销采样器:一旦训练完成,模型在推理时只需少量神经网络评估即可生成大量独立样本。

方法论

  1. 问题设定 – 我们给定一个 能量函数 (E(x)),它定义了一个未归一化的密度 (\tilde{p}(x) \propto e^{-E(x)})。目标是在从不计算归一化常数的情况下,从归一化分布 (p(x)) 中生成样本。

  2. 扩散骨干 – 标准的扩散模型学习一个逆向随机微分方程 (SDE),该方程将噪声数据点去噪回到数据流形。Flow Sampling 颠倒了条件化方式:模型接收一个 噪声 样本 (z),并学习预测将粒子从噪声状态移动到 (\tilde{p}) 的高概率区域的 去噪漂移

  3. 条件漂移回归 – 训练损失为
    [ \mathcal{L} = \mathbb{E}{t\sim[0,1],,z\sim\mathcal{N}(0,I)}\big|,\mathbf{v}\theta(t,z) - \underbrace{\big[-\nabla_x E(x_t) + \text{diffusion term}\big]}{\text{target drift}}\big|^2, ]
    其中 (x_t) 是参考点(通常是原点)与未知目标样本之间的插值状态,(\mathbf{v}
    \theta) 是神经网络对漂移的估计。

  4. 插值过程 – 为了避免在每个扩散步骤都重复计算 (E(\cdot)),作者在已知锚点和随机噪声样本之间构造线性(或测地)插值。这使得每个训练样本只需一次能量评估,成本降低一个数量级。

  5. 黎曼流形 – 在常曲率为 (K) 的流形上,插值遵循测地线。作者推导出满足流形度量的条件漂移的闭式表达式,使得相同的训练流水线能够在球面 ((K>0)) 或双曲空间 ((K<0)) 上工作。

  6. 推断 – 在测试时,学习得到的漂移场被积分(例如使用 Euler‑Maruyama)从噪声样本出发,产生目标分布的最终抽样。由于漂移是 amortized 的,生成成千上万的样本成本很低。

结果与发现

基准指标(越低越好)流采样 与 基线 对比
二维合成能量景观KL divergence0.12(我们的方法) vs. 0.31(Langevin)
小肽(10‑20 原子)相对于参考构象的 RMSD0.78 Å vs. 1.12 Å(MCMC)
大规模分子构象生成(10k 分子)覆盖率 @ 0.5 Å92 % vs. 81 %(仅扩散)
在 (\mathbb{S}^2) 上采样球面 Wasserstein 距离0.045 vs. 0.089(黎曼 HMC)

要点:流采样在匹配或超越传统 MCMC 和仅扩散采样器的同时,在训练期间只需 10‑100 倍更少的能量评估,并且在推理时 计算量降低了数量级

Practical Implications

  • Molecular design pipelines – 研究人员可以将 Flow Sampling 接入已有的生成化学工作流,在生成真实构象的同时,显著减少在昂贵的能量最小化上所花费的时间。
  • Physics‑informed simulation – 从事流体、材料或机器人建模的工程师可以自定义能量函数(例如约束、势能),并获得无需手工设计 MCMC 核的高速采样器。
  • Geometric deep learning – 处理流形上的任务(如方向数据、超曲面图嵌入)现在可以使用扩散式生成模型而无需离开曲率空间,从而保留内在几何结构。
  • Amortized inference for Bayesian models – 当后验仅以未归一化密度形式给出时,Flow Sampling 提供了一种即插即用的 amortized 采样器,避免了重复进行昂贵的梯度计算。

对于开发者而言,该方法已实现为标准的 PyTorch 模块(作者已发布代码),只需提供能量函数以及少量超参数(噪声调度、积分步数)。即可在现有流水线中最小化重构地直接使用。

限制与未来工作

  • Energy evaluation cost 仍然是极高维系统(例如大型蛋白质)的瓶颈;虽然插值函数降低了每个样本的成本,但评估的绝对次数仍可能很高。
  • Choice of noise schedule 和积分步长仍然有些经验性;次优设置可能会降低样本质量或稳定性。
  • 当前理论假设 smooth 能量函数;不可微分的约束(例如硬立体冲突)需要额外处理。
  • 作者提到的未来方向包括:自适应步长方案、将 Flow Sampling 与学习的代理能量模型耦合,以及将黎曼表述扩展到具有可变曲率的流形(例如学习的潜在流形)。

作者

  • Aaron Havens
  • Brian Karrer
  • Neta Shaul

论文信息

  • arXiv ID: 2605.03984v1
  • Categories: cs.LG, cs.AI
  • Published: 2026年5月5日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »