[Paper] 比采样更高效地估计宽随机 MLP 的期望输出

发布: (2026年5月7日 GMT+8 01:46)
8 分钟阅读
原文: arXiv

Source: arXiv - 2605.05179v1

概述

本文提出了一种新方法,用于在不进行大规模 Monte‑Carlo 仿真的情况下,计算宽且随机初始化的多层感知机 (MLP) 的期望输出。通过对激活在每一层的分布进行解析追踪,作者能够以远少于传统抽样的浮点运算量,估计均值、方差,甚至罕见事件的概率。这为更快速的诊断、更安全的模型初始化以及更高效的训练流水线打开了可能性。

关键贡献

  • 闭式估计器 用于在高斯输入下宽随机 MLP 的期望输出,基于累积量和 Hermite 多项式展开。
  • 理论保证 表明当网络宽度 (w) 较大时,估计器的均方误差(MSE)衰减速度快于 Monte‑Carlo 采样的 (O(1/N)) 速率。
  • 实证验证 展示在多种架构(例如 2‑层、4‑层以及深度残差 MLP)上实现数量级的 FLOP 节省。
  • 稀有事件分析 证明在尾部概率估计(例如神经元输出超过高阈值的概率)上能够获得准确结果,而采样需要数十亿次抽样。
  • 概念验证训练 中将估计器替代小规模损失梯度计算的前向传播,获得相近的收敛效果且计算量降低。

方法论

  1. 高斯输入假设 – 输入向量被建模为独立同分布的标准正态。这符合权重初始化分析的常见做法,并简化了数学推导。

  2. 层级分布传播 – 从输入分布出发,作者在每个仿射‑ReLU(或其他激活)块中传播近似矩。

    • 累积量(例如均值、方差、偏度)使用线性变换的已知公式以及 ReLU 对高斯变量的影响进行解析更新。
    • Hermite 展开 将非线性激活的作用表示为正交多项式的级数,由于在宽网络中高阶系数迅速衰减,通常在少数项后截断。
  3. 宽网络近似 – 当隐藏层宽度 (w \to \infty) 时,大数定律使经验激活分布集中在其基于矩的理论近似附近。估计器利用这种集中性来忽略采样噪声。

  4. 误差控制 – 作者对 Hermite 系列的截断误差以及有限宽度导致的偏差进行界定,得到整体均方误差上界,其尺度为 (\tilde O(1/w^2))。

  5. 实现 – 该估计器是一个轻量级例程,仅需对线性部分进行矩阵乘法,并对矩项进行少量标量更新——无需对完整网络进行前向传播。

结果与发现

实验基准(Monte‑Carlo)提议估计器FLOP 减少MSE(目标)
2‑层 MLP,宽度 = 102410⁶ 样本1 000 Hermite 项≈ 200×≤ 10⁻⁴
4‑层 MLP,宽度 = 204810⁶ 样本2 500 项≈ 350×≤ 5·10⁻⁵
尾概率(输出 > 3σ)需要 10⁹ 样本以获得稳定估计5 000 项≈ 10⁶×≤ 10⁻³
  • 准确性: 在不同深度和宽度下,估计器在规定的 MSE 范围内与 Monte‑Carlo 均值匹配,即使在高度非线性激活函数(ReLU、GELU)下亦如此。
  • 罕见事件估计: 对于概率 < 10⁻⁶ 的事件,估计器仍保持稳定,而采样方差会主导结果,除非使用数十亿次抽样。
  • 训练示例: 在合成数据的简单回归任务中,用估计器替代前向传播,可得到相似的损失曲线,同时将每轮计算量削减约 70 %。

实际意义

  • 更快的模型审计: 工程师可以在无需昂贵前向传播的情况下,快速评估新初始化网络的期望损失、梯度范数或激活统计信息——这对于超参数搜索或架构搜索非常有用。
  • 安全关键系统: 精确的尾部风险估计能够提前发现灾难性失效模式(例如,可能导致溢出或使下游组件饱和的极端激活)。
  • 资源受限的训练: 在 GPU 资源紧缺的环境(边缘设备、大规模超参数优化)中,该估计器可以取代昂贵的 Monte‑Carlo 验证循环。
  • 理论工具: 瞬时传播框架可以扩展到其他具有宽度集中性的架构(CNN、Transformer),为初始化策略提供新的分析视角。

限制与未来工作

  • Gaussian Input Restriction: 高斯输入限制: 当前推导假设 i.i.d. 正态输入;若要扩展到结构化数据(图像、文本嵌入),需要额外的近似。
  • Activation Diversity: 激活函数多样性: 虽然已处理 ReLU 和 GELU,但对于异构激活函数(swish、softmax)可能需要更高阶的 Hermite 项,从而增加计算开销。
  • Finite‑Width Effects: 有限宽度效应: 对于窄层(≤ 64 单元)时,集中性保证会减弱,估计器误差增大;混合采样与解析方案可能弥合此差距。
  • Scalability to Deep Nets: 向深层网络的可扩展性: 本文展示了最多 8 层的情况;更深的网络可能累积截断误差,建议采用自适应项选择或方差降低技巧。
  • Training Integration: 训练集成: 概念验证的训练实验仍属初步;未来工作应研究基于矩的估计器的反向传播及其对收敛动态的影响。

底线: 通过将宽随机 MLP 的前向传播转化为可处理的矩计算,这项工作为需要快速、可靠模型行为估计的开发者提供了实用的捷径——尤其是在探测输出分布尾部时,传统采样成本高昂且难以承受。

作者

  • Wilson Wu
  • Victor Lecomte
  • Michael Winer
  • George Robinson
  • Jacob Hilton
  • Paul Christiano

论文信息

  • arXiv ID: 2605.05179v1
  • 分类: cs.LG, cond-mat.dis-nn, stat.ML
  • 出版日期: 2026年5月6日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »