[Paper] 比采样更高效地估计宽随机 MLP 的期望输出

发布: 4天前 (2026年5月7日 GMT+8 01:46)

8 分钟阅读

原文: arXiv

Source: arXiv - 2605.05179v1

概述

本文提出了一种新方法，用于在不进行大规模 Monte‑Carlo 仿真的情况下，计算宽且随机初始化的多层感知机 (MLP) 的期望输出。通过对激活在每一层的分布进行解析追踪，作者能够以远少于传统抽样的浮点运算量，估计均值、方差，甚至罕见事件的概率。这为更快速的诊断、更安全的模型初始化以及更高效的训练流水线打开了可能性。

关键贡献

闭式估计器 用于在高斯输入下宽随机 MLP 的期望输出，基于累积量和 Hermite 多项式展开。
理论保证 表明当网络宽度 (w) 较大时，估计器的均方误差（MSE）衰减速度快于 Monte‑Carlo 采样的 (O(1/N)) 速率。
实证验证 展示在多种架构（例如 2‑层、4‑层以及深度残差 MLP）上实现数量级的 FLOP 节省。
稀有事件分析 证明在尾部概率估计（例如神经元输出超过高阈值的概率）上能够获得准确结果，而采样需要数十亿次抽样。
概念验证训练 中将估计器替代小规模损失梯度计算的前向传播，获得相近的收敛效果且计算量降低。

方法论

高斯输入假设 – 输入向量被建模为独立同分布的标准正态。这符合权重初始化分析的常见做法，并简化了数学推导。
层级分布传播 – 从输入分布出发，作者在每个仿射‑ReLU（或其他激活）块中传播近似矩。
- 累积量（例如均值、方差、偏度）使用线性变换的已知公式以及 ReLU 对高斯变量的影响进行解析更新。
- Hermite 展开 将非线性激活的作用表示为正交多项式的级数，由于在宽网络中高阶系数迅速衰减，通常在少数项后截断。
宽网络近似 – 当隐藏层宽度 (w \to \infty) 时，大数定律使经验激活分布集中在其基于矩的理论近似附近。估计器利用这种集中性来忽略采样噪声。
误差控制 – 作者对 Hermite 系列的截断误差以及有限宽度导致的偏差进行界定，得到整体均方误差上界，其尺度为 (\tilde O(1/w^2))。
实现 – 该估计器是一个轻量级例程，仅需对线性部分进行矩阵乘法，并对矩项进行少量标量更新——无需对完整网络进行前向传播。

结果与发现

实验	基准（Monte‑Carlo）	提议估计器	FLOP 减少	MSE（目标）
2‑层 MLP，宽度 = 1024	10⁶ 样本	1 000 Hermite 项	≈ 200×	≤ 10⁻⁴
4‑层 MLP，宽度 = 2048	10⁶ 样本	2 500 项	≈ 350×	≤ 5·10⁻⁵
尾概率（输出 > 3σ）	需要 10⁹ 样本以获得稳定估计	5 000 项	≈ 10⁶×	≤ 10⁻³

准确性: 在不同深度和宽度下，估计器在规定的 MSE 范围内与 Monte‑Carlo 均值匹配，即使在高度非线性激活函数（ReLU、GELU）下亦如此。
罕见事件估计: 对于概率 < 10⁻⁶ 的事件，估计器仍保持稳定，而采样方差会主导结果，除非使用数十亿次抽样。
训练示例: 在合成数据的简单回归任务中，用估计器替代前向传播，可得到相似的损失曲线，同时将每轮计算量削减约 70 %。

实际意义

更快的模型审计： 工程师可以在无需昂贵前向传播的情况下，快速评估新初始化网络的期望损失、梯度范数或激活统计信息——这对于超参数搜索或架构搜索非常有用。
安全关键系统： 精确的尾部风险估计能够提前发现灾难性失效模式（例如，可能导致溢出或使下游组件饱和的极端激活）。
资源受限的训练： 在 GPU 资源紧缺的环境（边缘设备、大规模超参数优化）中，该估计器可以取代昂贵的 Monte‑Carlo 验证循环。
理论工具： 瞬时传播框架可以扩展到其他具有宽度集中性的架构（CNN、Transformer），为初始化策略提供新的分析视角。

限制与未来工作

Gaussian Input Restriction: 高斯输入限制： 当前推导假设 i.i.d. 正态输入；若要扩展到结构化数据（图像、文本嵌入），需要额外的近似。
Activation Diversity: 激活函数多样性： 虽然已处理 ReLU 和 GELU，但对于异构激活函数（swish、softmax）可能需要更高阶的 Hermite 项，从而增加计算开销。
Finite‑Width Effects: 有限宽度效应： 对于窄层（≤ 64 单元）时，集中性保证会减弱，估计器误差增大；混合采样与解析方案可能弥合此差距。
Scalability to Deep Nets: 向深层网络的可扩展性： 本文展示了最多 8 层的情况；更深的网络可能累积截断误差，建议采用自适应项选择或方差降低技巧。
Training Integration: 训练集成： 概念验证的训练实验仍属初步；未来工作应研究基于矩的估计器的反向传播及其对收敛动态的影响。

底线： 通过将宽随机 MLP 的前向传播转化为可处理的矩计算，这项工作为需要快速、可靠模型行为估计的开发者提供了实用的捷径——尤其是在探测输出分布尾部时，传统采样成本高昂且难以承受。

作者

Wilson Wu
Victor Lecomte
Michael Winer
George Robinson
Jacob Hilton
Paul Christiano

论文信息

arXiv ID: 2605.05179v1
分类: cs.LG, cond-mat.dis-nn, stat.ML
出版日期: 2026年5月6日
PDF: 下载 PDF

[Paper] 比采样更高效地估计宽随机 MLP 的期望输出

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 归一化轨迹模型

[Paper] Zero-Shot 想象语音解码 via 想象到聆听的MEG映射

[Paper] GRAPHLCP：结构感知的图上局部化 Conformal Prediction

[论文] VecCISC：提升基于置信度的自一致性——推理轨迹聚类与候选答案选择