[Paper] 关于带投影噪声的朗之万动力学的隐式正则化

发布: (2026年2月13日 GMT+8 02:45)
8 分钟阅读
原文: arXiv

Source: arXiv - 2602.12257v1

Overview

本文研究了在过参数化模型中,对称性如何在将随机梯度下降(SGD)建模为朗之万动力学时影响其行为。通过将随机噪声投影到对称群正交的方向上,作者揭示了一种全新的 implicit regularization 形式,这种正则化纯粹源自对称群的几何结构,为为何 SGD 在深度学习中常能找到良好解提供了新的洞见。

关键贡献

  • Projected‑noise Langevin dynamics: 引入了一种在数学上严格的 SGD 版本,其中随机扰动被限制在不会沿对称轨道移动参数的方向上。
  • Equivalence to isotropic diffusion with extra drift: 表明当初始分布和目标分布都满足对称性时,投影噪声过程的分布与标准 Langevin 扩散加上一个确定性漂移项的分布相同。
  • Geometric interpretation of the drift: 将额外的漂移识别为 群轨道对数体积的负梯度,即对称流形的平均曲率。
  • Coupling construction: 给出了一种显式耦合,将投影噪声过程、各向同性过程以及在对称群本身上演化的第三个过程联系起来,从而在分布上建立等价性。
  • Implications for over‑parameterized models: 提供了一种具体机制,说明对称性引起的正则化如何在没有任何显式惩罚的情况下,使 SGD 偏向“更简单”的解。

方法论

  1. 模型设置:

    • 考虑一个光滑的参数空间 ( \Theta ),其上有一个紧致等距李群 ( G ) 作用(例如神经元的置换、权重缩放对称性)。
    • 定义标准的阻尼朗之万随机微分方程(SDE):
      [ d\theta_t = -\nabla V(\theta_t),dt + \sqrt{2\beta^{-1}},dW_t, ]
      其中 ( V ) 为损失(势),( W_t ) 为标准布朗运动。
    • 将噪声投影到群轨道切空间的正交补上,得到
      [ d\theta_t = -\nabla V(\theta_t),dt + \sqrt{2\beta^{-1}},\Pi_{\theta_t}^\perp dW_t, ]
      其中 ( \Pi_{\theta}^\perp ) 去除了沿对称方向的分量。
  2. 通过群过程进行耦合:

    • 引入一个随机过程 ( g_t \in G ),它在群本身上演化,由相同的布朗运动驱动,但投影到轨道的切空间上。
    • 证明对 ((\theta_t, g_t)) 的联合扩散,其在 ( \theta_t ) 上的边缘分布正好对应投影噪声动力学。
  3. 推导额外漂移项:

    • 对“撤销”群作用的变量变换应用伊藤公式,作者分离出一个依赖于轨道映射雅可比行列式的确定性项。
    • 该项化简为 (-\nabla \log \operatorname{vol}(G!\cdot!\theta)),即负对数轨道体积的梯度,它恰好是轨道的平均曲率向量。
  4. 等价性证明:

    • 证明投影噪声 SDE 与带有额外漂移项的标准各向同性朗之万 SDE 在有限维分布上完全相同,从而建立所宣称的律等价性。

结果与发现

  • Theorem (Implicit regularization): 如果初始密度 ( \rho_0 ) 与目标(平稳)密度 ( \rho_\infty \propto e^{-\beta V} ) 在群 ( G ) 下保持不变,则投影噪声 Langevin 动力学在统计上与具有额外漂移项 (-\nabla \log \operatorname{vol}(G!\cdot!\theta)) 的标准 Langevin 扩散过程不可区分。
  • Geometric insight: 该额外漂移将轨迹推向对称轨道体积更小的区域,实际上偏好在群作用下“冗余度更低”的参数配置。
  • Mean curvature connection: 该漂移等于轨道流形的平均曲率向量,将随机优化与经典微分几何联系起来。

实际意义

  • 理解 SGD 的偏差: 在具有权重共享、置换或尺度对称性的深度网络中,mini‑batch SGD 注入的噪声自然符合投影噪声模型。推导出的漂移表明,SGD 隐式惩罚高度对称(高体积)的解,这可能解释了它倾向于找到更平坦的最小值。
  • 设计更好的优化器: 通过显式加入基于曲率的正则化项(例如 (-\log) 轨道体积)或使噪声符合模型对称性,实践者可以在无需手工设计惩罚项的情况下,引导训练朝向更具泛化能力的解。
  • 模型压缩与剪枝: 由于漂移倾向于低轨道体积区域,它可能自然鼓励更易于压缩的参数配置(冗余自由度更少)。这一洞见可用于指导新的压缩感知训练方案。
  • 对过度参数化的鲁棒性: 该理论为为何高度过度参数化的模型仍能泛化提供了原理性的解释:对称性引发的正则化在训练过程中充当了隐形的“奥卡姆剃刀”。

限制与未来工作

  • 对完全对称性的假设: 分析需要完美的等距群作用和不变的初始/目标密度。实际网络往往只有近似对称性(例如,由于批归一化或 dropout)。
  • 紧致李群: 结果已在紧致群上证明;将其扩展到非紧致或离散对称群(例如 ReLU 激活模式)仍是未解之题。
  • 离散 SGD 与连续 Langevin: 虽然 Langevin 动力学是一个有用的近似,但小批量 SGD 引入了额外的离散化效应和非高斯噪声,这些在此未被捕获。
  • 计算可行性: 在高维神经网络中计算轨道体积或其梯度并非易事;未来工作可以探索高效的估计器或替代正则化器。

作者

  • Govind Menon
  • Austin J. Stromme
  • Adrien Vacher

论文信息

  • arXiv ID: 2602.12257v1
  • 分类: math.PR, cs.AI
  • 出版日期: 2026年2月12日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »