[Paper] 关于带投影噪声的朗之万动力学的隐式正则化

发布: 3天前 (2026年2月13日 GMT+8 02:45)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.12257v1

Overview

本文研究了在过参数化模型中，对称性如何在将随机梯度下降（SGD）建模为朗之万动力学时影响其行为。通过将随机噪声投影到对称群正交的方向上，作者揭示了一种全新的 implicit regularization 形式，这种正则化纯粹源自对称群的几何结构，为为何 SGD 在深度学习中常能找到良好解提供了新的洞见。

关键贡献

Projected‑noise Langevin dynamics: 引入了一种在数学上严格的 SGD 版本，其中随机扰动被限制在不会沿对称轨道移动参数的方向上。
Equivalence to isotropic diffusion with extra drift: 表明当初始分布和目标分布都满足对称性时，投影噪声过程的分布与标准 Langevin 扩散加上一个确定性漂移项的分布相同。
Geometric interpretation of the drift: 将额外的漂移识别为 群轨道对数体积的负梯度，即对称流形的平均曲率。
Coupling construction: 给出了一种显式耦合，将投影噪声过程、各向同性过程以及在对称群本身上演化的第三个过程联系起来，从而在分布上建立等价性。
Implications for over‑parameterized models: 提供了一种具体机制，说明对称性引起的正则化如何在没有任何显式惩罚的情况下，使 SGD 偏向“更简单”的解。

方法论

模型设置：
- 考虑一个光滑的参数空间 ( \Theta )，其上有一个紧致等距李群 ( G ) 作用（例如神经元的置换、权重缩放对称性）。
- 定义标准的阻尼朗之万随机微分方程（SDE）：
  [ d\theta_t = -\nabla V(\theta_t),dt + \sqrt{2\beta^{-1}},dW_t, ]
  其中 ( V ) 为损失（势），( W_t ) 为标准布朗运动。
- 将噪声投影到群轨道切空间的正交补上，得到
  [ d\theta_t = -\nabla V(\theta_t),dt + \sqrt{2\beta^{-1}},\Pi_{\theta_t}^\perp dW_t, ]
  其中 ( \Pi_{\theta}^\perp ) 去除了沿对称方向的分量。
通过群过程进行耦合：
- 引入一个随机过程 ( g_t \in G )，它在群本身上演化，由相同的布朗运动驱动，但投影到轨道的切空间上。
- 证明对 ((\theta_t, g_t)) 的联合扩散，其在 ( \theta_t ) 上的边缘分布正好对应投影噪声动力学。
推导额外漂移项：
- 对“撤销”群作用的变量变换应用伊藤公式，作者分离出一个依赖于轨道映射雅可比行列式的确定性项。
- 该项化简为 (-\nabla \log \operatorname{vol}(G!\cdot!\theta))，即负对数轨道体积的梯度，它恰好是轨道的平均曲率向量。
等价性证明：
- 证明投影噪声 SDE 与带有额外漂移项的标准各向同性朗之万 SDE 在有限维分布上完全相同，从而建立所宣称的律等价性。

结果与发现

Theorem (Implicit regularization): 如果初始密度 ( \rho_0 ) 与目标（平稳）密度 ( \rho_\infty \propto e^{-\beta V} ) 在群 ( G ) 下保持不变，则投影噪声 Langevin 动力学在统计上与具有额外漂移项 (-\nabla \log \operatorname{vol}(G!\cdot!\theta)) 的标准 Langevin 扩散过程不可区分。
Geometric insight: 该额外漂移将轨迹推向对称轨道体积更小的区域，实际上偏好在群作用下“冗余度更低”的参数配置。
Mean curvature connection: 该漂移等于轨道流形的平均曲率向量，将随机优化与经典微分几何联系起来。

实际意义

理解 SGD 的偏差： 在具有权重共享、置换或尺度对称性的深度网络中，mini‑batch SGD 注入的噪声自然符合投影噪声模型。推导出的漂移表明，SGD 隐式惩罚高度对称（高体积）的解，这可能解释了它倾向于找到更平坦的最小值。
设计更好的优化器： 通过显式加入基于曲率的正则化项（例如 (-\log) 轨道体积）或使噪声符合模型对称性，实践者可以在无需手工设计惩罚项的情况下，引导训练朝向更具泛化能力的解。
模型压缩与剪枝： 由于漂移倾向于低轨道体积区域，它可能自然鼓励更易于压缩的参数配置（冗余自由度更少）。这一洞见可用于指导新的压缩感知训练方案。
对过度参数化的鲁棒性： 该理论为为何高度过度参数化的模型仍能泛化提供了原理性的解释：对称性引发的正则化在训练过程中充当了隐形的“奥卡姆剃刀”。

限制与未来工作

对完全对称性的假设： 分析需要完美的等距群作用和不变的初始/目标密度。实际网络往往只有近似对称性（例如，由于批归一化或 dropout）。
紧致李群： 结果已在紧致群上证明；将其扩展到非紧致或离散对称群（例如 ReLU 激活模式）仍是未解之题。
离散 SGD 与连续 Langevin： 虽然 Langevin 动力学是一个有用的近似，但小批量 SGD 引入了额外的离散化效应和非高斯噪声，这些在此未被捕获。
计算可行性： 在高维神经网络中计算轨道体积或其梯度并非易事；未来工作可以探索高效的估计器或替代正则化器。

作者

Govind Menon
Austin J. Stromme
Adrien Vacher

论文信息

arXiv ID: 2602.12257v1
分类: math.PR, cs.AI
出版日期: 2026年2月12日
PDF: 下载 PDF

[Paper] 关于带投影噪声的朗之万动力学的隐式正则化

Overview

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 规模化验证在视觉-语言-动作对齐中可能比规模化策略学习更有效

[Paper] UniT：统一多模态链式思考测试时扩展

[Paper] MonarchRT：高效注意力用于实时视频生成

[Paper] 基于 Flow-Guided Neural Operator 的自监督学习在时间序列数据上的应用