[Paper] 剪枝如进化:通过选择动力学在神经网络中产生的稀疏性

发布: (2026年1月15日 GMT+8 00:48)
8 min read
原文: arXiv

Source: arXiv - 2601.10765v1

概览

论文 “Pruning as Evolution: Emergent Sparsity Through Selection Dynamics in Neural Networks” 将网络剪枝重新定义为一种自然的、连续的选择过程,而不是事后基于规则的清理步骤。通过将参数组(神经元、过滤器、注意力头等)视为进化中的种群,作者展示了稀疏性可以在标准梯度训练期间有机地出现——为在没有专门剪枝计划的情况下实现更轻量模型打开了道路。

关键贡献

  • 剪枝的进化框架 – 引入一个形式化模型,其中每个参数组拥有一个“种群质量”,在源自局部学习信号的选择压力下演化。
  • 连续选择动力学 – 推导控制质量演化的微分方程,消除对离散剪枝事件或外部重要性度量的需求。
  • 在放大版 MLP 上的实证验证 – 证明进化过程能够复现密集模型的准确率(在 MNIST 上约 98 %),并在训练后硬剪枝时提供可预测的准确率‑稀疏度权衡。
  • 无需显式调度的稀疏性 – 表明一个简单的训练循环即可自动实现 35–50 % 的稀疏度,简化了当前需要多阶段剪枝‑再训练循环的工作流。

方法论

  1. 人口定义 – 网络被划分为 population(例如,每个隐藏神经元)。每个 population (i) 拥有一个标量质量 (m_i),用于缩放其输出贡献。

  2. 适应度估计 – 在反向传播过程中,损失相对于某个 population 输出的梯度被用作其 适应度 的代理:梯度幅度越大 → 适应度越高,表明该 population 当前对降低损失有用。

  3. 选择动力学 – 作者采用复制子类型的微分方程:

    $$\dot{m}_i = m_i \bigl( f_i - \bar{f} \bigr)$$

    其中 (f_i) 为 population (i) 的适应度,(\bar{f}) 为所有 population 的平均适应度。低于平均适应度的 population 会收缩,而高适应度的则会增长。

  4. 质量归一化 – 为了保持总容量有界,质量会定期进行归一化(例如 L1‑范数约束),确保网络不会简单地把所有质量都膨胀。

  5. 硬剪枝 – 训练结束后,任何质量低于小阈值的 population 都会被移除,从而得到稀疏结构。无需额外的剪枝 epoch 或 mask‑learning 阶段。

整个过程嵌入标准训练循环:计算前向传播,反向传播,更新权重,计算适应度,更新质量,归一化,重复。

Results & Findings

稀疏目标测试准确率 (MNIST)观察
0 % (dense)≈ 98 %基准与标准 MLP 性能相匹配。
35 %≈ 95.5 %准确率略有下降;进化选择保留了大多数有用的神经元。
50 %88.3 % – 88.6 %下降幅度更大,但仍远高于随机猜测;展示了明显的权衡曲线。

关键要点

  • 进化动力学自然会使许多神经元的质量趋近于零,因而容易被剪枝。
  • 随着稀疏度的提升,准确率呈现平滑下降,类似经典的剪枝曲线,但无需任何显式的剪枝计划。
  • 选择动力学的不同变体(例如,替代的适应度定义)会产生略有差异的稀疏度‑准确率曲线,这表明开发者可以调节“选择压力”来实现不同的性能‑稀疏度平衡。

实际意义

  • 简化的流水线 – 团队可以省去多阶段的剪枝‑再训练‑微调工作流。一次训练即可得到可直接剪枝的模型。
  • 动态模型尺寸 – 通过调节质量归一化强度或适应度缩放因子,开发者可以在运行时将模型引导至期望的大小,这对内存预算变化的边缘设备部署非常有用。
  • 硬件感知训练 – 由于该方法在神经元/滤波器粒度上工作,它与现代加速器(例如 NVIDIA Ampere 的稀疏张量核心、Intel 的 DL Boost)能够利用的结构化稀疏性高度匹配,无需昂贵的非结构化掩码处理。
  • 持续学习的潜力 – 群体视角天然支持添加新神经元(质量注入)或移除陈旧神经元,为需要随时间适应而无需完整再训练的模型提供了框架。
  • 降低超参数负担 – 无需调节剪枝阈值、安排训练轮次或专用于稀疏性的正则化权重;唯一需要调整的新参数是适应度到质量的映射以及归一化速率。

局限性与未来工作

  • 实验规模 – 验证仅限于在 MNIST 上的一个小型 MLP;在大型 CNN、Transformer 或语言模型上的行为尚未测试。
  • 适应度代理的简易性 – 使用原始梯度幅值在更深的网络中可能噪声较大;更稳健的适应度估计器(例如移动平均、二阶信息)可能提升稳定性。
  • 硬性剪枝阈值 – 最终的截断仍是手动超参数;如何自动选择(例如通过目标参数量预算)仍是未解之题。
  • 与其他正则化器的交互 – 演化动力学如何与 dropout、批归一化或权重衰减共存需要系统性研究。

作者建议将该框架扩展到卷积滤波器和注意力头的结构化剪枝,探索自适应选择压力,并将该方法集成到大规模训练库中(例如 PyTorch Lightning、TensorFlow Keras)。

作者

  • Zubair Shah
  • Noaman Khan

论文信息

  • arXiv ID: 2601.10765v1
  • 分类: cs.NE
  • 发布日期: 2026年1月14日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »