[Paper] 剪枝如进化:通过选择动力学在神经网络中产生的稀疏性
Source: arXiv - 2601.10765v1
概览
论文 “Pruning as Evolution: Emergent Sparsity Through Selection Dynamics in Neural Networks” 将网络剪枝重新定义为一种自然的、连续的选择过程,而不是事后基于规则的清理步骤。通过将参数组(神经元、过滤器、注意力头等)视为进化中的种群,作者展示了稀疏性可以在标准梯度训练期间有机地出现——为在没有专门剪枝计划的情况下实现更轻量模型打开了道路。
关键贡献
- 剪枝的进化框架 – 引入一个形式化模型,其中每个参数组拥有一个“种群质量”,在源自局部学习信号的选择压力下演化。
- 连续选择动力学 – 推导控制质量演化的微分方程,消除对离散剪枝事件或外部重要性度量的需求。
- 在放大版 MLP 上的实证验证 – 证明进化过程能够复现密集模型的准确率(在 MNIST 上约 98 %),并在训练后硬剪枝时提供可预测的准确率‑稀疏度权衡。
- 无需显式调度的稀疏性 – 表明一个简单的训练循环即可自动实现 35–50 % 的稀疏度,简化了当前需要多阶段剪枝‑再训练循环的工作流。
方法论
-
人口定义 – 网络被划分为 population(例如,每个隐藏神经元)。每个 population (i) 拥有一个标量质量 (m_i),用于缩放其输出贡献。
-
适应度估计 – 在反向传播过程中,损失相对于某个 population 输出的梯度被用作其 适应度 的代理:梯度幅度越大 → 适应度越高,表明该 population 当前对降低损失有用。
-
选择动力学 – 作者采用复制子类型的微分方程:
$$\dot{m}_i = m_i \bigl( f_i - \bar{f} \bigr)$$
其中 (f_i) 为 population (i) 的适应度,(\bar{f}) 为所有 population 的平均适应度。低于平均适应度的 population 会收缩,而高适应度的则会增长。
-
质量归一化 – 为了保持总容量有界,质量会定期进行归一化(例如 L1‑范数约束),确保网络不会简单地把所有质量都膨胀。
-
硬剪枝 – 训练结束后,任何质量低于小阈值的 population 都会被移除,从而得到稀疏结构。无需额外的剪枝 epoch 或 mask‑learning 阶段。
整个过程嵌入标准训练循环:计算前向传播,反向传播,更新权重,计算适应度,更新质量,归一化,重复。
Results & Findings
| 稀疏目标 | 测试准确率 (MNIST) | 观察 |
|---|---|---|
| 0 % (dense) | ≈ 98 % | 基准与标准 MLP 性能相匹配。 |
| 35 % | ≈ 95.5 % | 准确率略有下降;进化选择保留了大多数有用的神经元。 |
| 50 % | 88.3 % – 88.6 % | 下降幅度更大,但仍远高于随机猜测;展示了明显的权衡曲线。 |
关键要点
- 进化动力学自然会使许多神经元的质量趋近于零,因而容易被剪枝。
- 随着稀疏度的提升,准确率呈现平滑下降,类似经典的剪枝曲线,但无需任何显式的剪枝计划。
- 选择动力学的不同变体(例如,替代的适应度定义)会产生略有差异的稀疏度‑准确率曲线,这表明开发者可以调节“选择压力”来实现不同的性能‑稀疏度平衡。
实际意义
- 简化的流水线 – 团队可以省去多阶段的剪枝‑再训练‑微调工作流。一次训练即可得到可直接剪枝的模型。
- 动态模型尺寸 – 通过调节质量归一化强度或适应度缩放因子,开发者可以在运行时将模型引导至期望的大小,这对内存预算变化的边缘设备部署非常有用。
- 硬件感知训练 – 由于该方法在神经元/滤波器粒度上工作,它与现代加速器(例如 NVIDIA Ampere 的稀疏张量核心、Intel 的 DL Boost)能够利用的结构化稀疏性高度匹配,无需昂贵的非结构化掩码处理。
- 持续学习的潜力 – 群体视角天然支持添加新神经元(质量注入)或移除陈旧神经元,为需要随时间适应而无需完整再训练的模型提供了框架。
- 降低超参数负担 – 无需调节剪枝阈值、安排训练轮次或专用于稀疏性的正则化权重;唯一需要调整的新参数是适应度到质量的映射以及归一化速率。
局限性与未来工作
- 实验规模 – 验证仅限于在 MNIST 上的一个小型 MLP;在大型 CNN、Transformer 或语言模型上的行为尚未测试。
- 适应度代理的简易性 – 使用原始梯度幅值在更深的网络中可能噪声较大;更稳健的适应度估计器(例如移动平均、二阶信息)可能提升稳定性。
- 硬性剪枝阈值 – 最终的截断仍是手动超参数;如何自动选择(例如通过目标参数量预算)仍是未解之题。
- 与其他正则化器的交互 – 演化动力学如何与 dropout、批归一化或权重衰减共存需要系统性研究。
作者建议将该框架扩展到卷积滤波器和注意力头的结构化剪枝,探索自适应选择压力,并将该方法集成到大规模训练库中(例如 PyTorch Lightning、TensorFlow Keras)。
作者
- Zubair Shah
- Noaman Khan
论文信息
- arXiv ID: 2601.10765v1
- 分类: cs.NE
- 发布日期: 2026年1月14日
- PDF: Download PDF