[Paper] 剪枝如进化：通过选择动力学在神经网络中产生的稀疏性

发布: 3周前 (2026年1月15日 GMT+8 00:48)

8 分钟阅读

原文: arXiv

Source: arXiv - 2601.10765v1

概览

论文 “Pruning as Evolution: Emergent Sparsity Through Selection Dynamics in Neural Networks” 将网络剪枝重新定义为一种自然的、连续的选择过程，而不是事后基于规则的清理步骤。通过将参数组（神经元、过滤器、注意力头等）视为进化中的种群，作者展示了稀疏性可以在标准梯度训练期间有机地出现——为在没有专门剪枝计划的情况下实现更轻量模型打开了道路。

关键贡献

剪枝的进化框架 – 引入一个形式化模型，其中每个参数组拥有一个“种群质量”，在源自局部学习信号的选择压力下演化。
连续选择动力学 – 推导控制质量演化的微分方程，消除对离散剪枝事件或外部重要性度量的需求。
在放大版 MLP 上的实证验证 – 证明进化过程能够复现密集模型的准确率（在 MNIST 上约 98 %），并在训练后硬剪枝时提供可预测的准确率‑稀疏度权衡。
无需显式调度的稀疏性 – 表明一个简单的训练循环即可自动实现 35–50 % 的稀疏度，简化了当前需要多阶段剪枝‑再训练循环的工作流。

方法论

人口定义 – 网络被划分为 population（例如，每个隐藏神经元）。每个 population (i) 拥有一个标量质量 (m_i)，用于缩放其输出贡献。
适应度估计 – 在反向传播过程中，损失相对于某个 population 输出的梯度被用作其 适应度 的代理：梯度幅度越大 → 适应度越高，表明该 population 当前对降低损失有用。
选择动力学 – 作者采用复制子类型的微分方程：

$$\dot{m}_i = m_i \bigl( f_i - \bar{f} \bigr)$$

其中 (f_i) 为 population (i) 的适应度，(\bar{f}) 为所有 population 的平均适应度。低于平均适应度的 population 会收缩，而高适应度的则会增长。
质量归一化 – 为了保持总容量有界，质量会定期进行归一化（例如 L1‑范数约束），确保网络不会简单地把所有质量都膨胀。
硬剪枝 – 训练结束后，任何质量低于小阈值的 population 都会被移除，从而得到稀疏结构。无需额外的剪枝 epoch 或 mask‑learning 阶段。

整个过程嵌入标准训练循环：计算前向传播，反向传播，更新权重，计算适应度，更新质量，归一化，重复。

Results & Findings

稀疏目标	测试准确率 (MNIST)	观察
0 % (dense)	≈ 98 %	基准与标准 MLP 性能相匹配。
35 %	≈ 95.5 %	准确率略有下降；进化选择保留了大多数有用的神经元。
50 %	88.3 % – 88.6 %	下降幅度更大，但仍远高于随机猜测；展示了明显的权衡曲线。

关键要点

进化动力学自然会使许多神经元的质量趋近于零，因而容易被剪枝。
随着稀疏度的提升，准确率呈现平滑下降，类似经典的剪枝曲线，但无需任何显式的剪枝计划。
选择动力学的不同变体（例如，替代的适应度定义）会产生略有差异的稀疏度‑准确率曲线，这表明开发者可以调节“选择压力”来实现不同的性能‑稀疏度平衡。

实际意义

简化的流水线 – 团队可以省去多阶段的剪枝‑再训练‑微调工作流。一次训练即可得到可直接剪枝的模型。
动态模型尺寸 – 通过调节质量归一化强度或适应度缩放因子，开发者可以在运行时将模型引导至期望的大小，这对内存预算变化的边缘设备部署非常有用。
硬件感知训练 – 由于该方法在神经元/滤波器粒度上工作，它与现代加速器（例如 NVIDIA Ampere 的稀疏张量核心、Intel 的 DL Boost）能够利用的结构化稀疏性高度匹配，无需昂贵的非结构化掩码处理。
持续学习的潜力 – 群体视角天然支持添加新神经元（质量注入）或移除陈旧神经元，为需要随时间适应而无需完整再训练的模型提供了框架。
降低超参数负担 – 无需调节剪枝阈值、安排训练轮次或专用于稀疏性的正则化权重；唯一需要调整的新参数是适应度到质量的映射以及归一化速率。

局限性与未来工作

实验规模 – 验证仅限于在 MNIST 上的一个小型 MLP；在大型 CNN、Transformer 或语言模型上的行为尚未测试。
适应度代理的简易性 – 使用原始梯度幅值在更深的网络中可能噪声较大；更稳健的适应度估计器（例如移动平均、二阶信息）可能提升稳定性。
硬性剪枝阈值 – 最终的截断仍是手动超参数；如何自动选择（例如通过目标参数量预算）仍是未解之题。
与其他正则化器的交互 – 演化动力学如何与 dropout、批归一化或权重衰减共存需要系统性研究。

作者建议将该框架扩展到卷积滤波器和注意力头的结构化剪枝，探索自适应选择压力，并将该方法集成到大规模训练库中（例如 PyTorch Lightning、TensorFlow Keras）。

作者

Zubair Shah
Noaman Khan

论文信息

arXiv ID: 2601.10765v1
分类: cs.NE
发布日期: 2026年1月14日
PDF: Download PDF

[Paper] 剪枝如进化：通过选择动力学在神经网络中产生的稀疏性

概览

关键贡献

方法论

Results & Findings

实际意义

局限性与未来工作

作者

论文信息

相关文章

【论文】UniX：统一自回归与扩散用于胸部X光的理解与生成

[Paper] 一根绳子有多长？对Tokenizer的简要实证分析

[Paper] 解释在大型推理模型中是否具有泛化性？

[论文] 为 Gemini 构建生产就绪探针

概览

关键贡献

方法论

Results & Findings

实际意义

局限性与未来工作

作者

论文信息

相关文章

【论文】UniX：统一自回归与扩散用于胸部X光的理解与生成

[Paper] 一根绳子有多长？ 对Tokenizer的简要实证分析

[Paper] 解释在大型推理模型中是否具有泛化性？

[论文] 为 Gemini 构建生产就绪探针

[Paper] 一根绳子有多长？对Tokenizer的简要实证分析