[Paper] 动量 SVGD-EM 用于加速最大边际似然估计

发布: (2026年3月10日 GMT+8 01:47)
7 分钟阅读
原文: arXiv

Source: arXiv - 2603.08676v1

概述

本文介绍了 Momentum SVGD‑EM,一种加速算法,将 Stein 变分梯度下降 (SVGD) 与经典的期望最大化 (EM) 框架相结合。通过在模型参数更新和后验近似的演化中注入 Nesterov 风格的动量,作者实现了在各种低维和高维问题上对最大边际似然估计 (MMLE) 的更快收敛。

关键贡献

  • 将 MMLE 统一视为自由能最小化:将 EM 重新表述为对参数 以及 概率测度的坐标下降,为基于粒子的近似铺平道路。
  • 动量增强的 SVGD‑EM:在参数空间和分布的函数空间中加入 Nesterov 动量,扩展现有的 SVGD‑EM 算法。
  • 理论依据:证明动量项保持变分解释,并在标准光滑性假设下维持收敛保证。
  • 广泛的实证验证:在合成基准、贝叶斯混合模型以及深度潜变量任务(如变分自编码器)上展示了一致的迭代加速。
  • 可扩展到高维:提供证据表明该方法在潜在空间维度达数百时仍然有效,而普通 SVGD‑EM 往往停滞。

方法论

  1. 自由能公式:MMLE 表示为最小化

    $$ \mathcal{F}(\theta, q) = -\mathbb{E}_{q(z)}[\log p(x, z \mid \theta)] + \mathrm{KL}(q(z) ,|, p(z \mid x, \theta)), $$

    其中 (\theta) 为模型参数,(q) 是对潜在变量 (z) 的真实后验的可处理代理。

  2. 坐标下降(EM)

    • E 步:在保持 (\theta) 固定的情况下更新 (q)。
    • M 步:在保持 (q) 固定的情况下更新 (\theta)。
  3. E 步的 SVGD:不使用闭式更新,而是使用一组粒子 ({z_i}_{i=1}^N),通过 SVGD 演化,使经验粒子分布在再现核希尔伯特空间 (RKHS) 中沿函数梯度推动向目标后验。

  4. Nesterov 动量注入

    • 参数动量

      $$ \theta^{t+1} = \theta^{t} - \eta_{\theta}\nabla_{\theta}\mathcal{F}(\theta^{t}, q^{t}) + \beta_{\theta}(\theta^{t} - \theta^{t-1}). $$

    • 粒子动量:每个粒子获得一个速度项

      $$ v_i^{t+1}= \beta_{z} v_i^{t} - \eta_{z},\phi(z_i^{t}), $$

      其中 (\phi) 为 SVGD 更新方向。

  5. 算法循环:在动量增强的 M 步和 E 步之间交替进行,直至收敛,可选使用自适应步长调度。

得到的 Momentum SVGD‑EM 算法在保持 EM(交替更新)简洁性的同时,受益于 Nesterov 动量在两个空间中的加速特性。

结果与发现

任务维度基线 (SVGD‑EM)动量 SVGD‑EM加速 (迭代次数)
高斯混合(合成)2维潜在1200 次迭代720 次迭代~1.7×
贝叶斯逻辑回归20维潜在850 次迭代460 次迭代~1.85×
MNIST 上的 VAE50维潜在3000 次迭代1650 次迭代~1.8×
深度潜在狄利克雷分配200维潜在4200 次迭代2400 次迭代~1.75×
  • 收敛曲线 显示动量变体的自由能下降更陡峭,尤其在训练早期。
  • 对步长的鲁棒性:加速方法能够容忍更大的学习率而不发散,减少对细粒度超参数搜索的需求。
  • 粒子多样性:动量不会导致粒子多样性崩塌;核带宽自适应仍然有效。

总体而言,实验确认加入动量能够实现一致的迭代层面加速,且不牺牲最终估计质量。

实际意义

  • 更快的贝叶斯推断流水线:工程师可以将 Momentum SVGD‑EM 插入现有的 EM‑style 工作流(例如混合模型、隐马尔可夫模型),并期望在更少的数据遍历次数下达到满意的边际似然。
  • 可扩展的潜变量深度模型:使用基于粒子的 E 步训练 VAE 或概率自编码器变得更易实现,为超越均值场的更丰富后验近似打开了大门。
  • 降低计算成本:迭代次数的减少直接转化为更低的 GPU/CPU 时间,这对仍需原则性不确定性量化的大规模生产系统尤为重要。
  • 兼容现有库:该算法仅在标准 SVGD 更新上添加一个动量缓冲区,因而可以轻松地在 PyTorch、JAX 或 TensorFlow 的基于粒子的推断工具包之上实现。

简而言之,想要加速基于边际似然的学习的开发者可以将 Momentum SVGD‑EM 作为 vanilla SVGD‑EM 的即插即用替代方案。

限制与未来工作

  • 理论收敛率:虽然经验加速效果显著,但论文仅提供了渐近保证;对组合动量‑SVGD 动力学的更紧致的非渐近界仍是未解之题。
  • 核函数选择的敏感性:与所有 SVGD 方法一样,如果核函数带宽调得不佳,尤其在极高维度下,性能可能下降。自适应或学习得到的核函数有望缓解此问题。
  • 内存开销:为每个粒子存储速度向量会增加一定的内存成本,在粒子数量达到数百万时可能变得显著。
  • 向随机设置的扩展:当前形式假设使用全批量梯度;将小批量随机估计(例如随机 SVGD‑EM)纳入其中,是实现真正大规模数据的有前景方向。

未来的研究可以探索 自适应动量调度核函数学习策略,以及 理论分析,以弥合欧几里得空间中 Nesterov 加速与 SVGD 等函数空间更新之间的差距。

作者

  • Adam Rozzio
  • Rafael Athanasiades
  • O. Deniz Akyildiz

论文信息

  • arXiv ID: 2603.08676v1
  • 分类: stat.ML, cs.LG, stat.CO
  • 出版日期: 2026年3月9日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »

[Paper] 尺度空间扩散

Diffusion models 通过噪声降解图像,逆转该过程揭示了跨时间步的信息层次结构。Scale-space theory 展示了类似……