[Paper] 剪枝如游戏:平衡驱动的神经网络稀疏化
发布: (2025年12月27日 GMT+8 02:25)
7 min read
原文: arXiv
Source: arXiv - 2512.22106v1
概览
论文 “Pruning as a Game: Equilibrium‑Driven Sparsification of Neural Networks” 将网络剪枝重新构造为模型内部组件(权重、神经元、滤波器)之间的策略博弈。作者并未通过手工设计的重要性分数或正则化项强加稀疏性,而是让稀疏性 自然出现:当每个组件的“参与水平”达到一种平衡,使得继续保持活跃不再有利时,稀疏性便产生。该博弈论视角提供了一种简洁、可解释的剪枝算法,其稀疏度‑精度权衡可与最先进的方法相匹配。
关键贡献
- 博弈论形式化: 将参数组建模为连续非合作博弈中的玩家,每个玩家选择一个参与标量。
- 基于均衡的稀疏性: 证明在纳什均衡时,受支配的玩家(即冗余参数)会自行收敛到零,无需外部剪枝规则。
- 简易算法: 推导出一个端到端的训练流程,联合更新权重和参与变量,消除对单独重要性评分或事后阈值裁剪的需求。
- 理论洞察: 给出可证明的条件,确保受支配的玩家必然被剪枝,为剪枝为何有效提供了原理性的解释。
- 实证验证: 在标准基准(如 CIFAR‑10/100、ImageNet 子集)上展示了竞争性的稀疏度‑准确率曲线,并实现了轻量级的实现方式。
方法论
- 玩家与策略 – 每个参数组(例如,一个过滤器)是一个玩家。它的策略是一个连续标量 (p_i \in [0,1]),表示它在前向传播中参与的程度。
- 效用函数 – 效用函数平衡两个项:
- 贡献: 玩家对损失的改进程度(例如,基于梯度的信号)。
- 成本: 对冗余/与其他玩家竞争的惩罚,建模为集体参与向量 (\mathbf{p}) 的平滑函数。
- 均衡计算 – 作者推导了纳什均衡的一阶最优条件,从而得到 (p_i) 的闭式更新。当保持活跃的边际收益低于成本时,最优的 (p_i) 变为零。
- 训练循环 – 在每个小批次中:
- 前向传播使用当前的参与掩码 (\mathbf{p})。
- 反向传播同时更新原始权重和参与标量,使用对联合损失的梯度下降。
- 收敛后,任何恰好为零(或低于极小 epsilon)的 (p_i) 将被永久移除,从而得到稀疏模型。
整个过程是单阶段训练流程——不需要单独的“预训练 → 剪枝 → 微调”阶段。
结果与发现
| 数据集 | 基线(稠密) | 稀疏率 % | 准确率(稠密) | 准确率(Game‑Prune) |
|---|---|---|---|---|
| CIFAR‑10 | 93.5% | 70% | 93.5% | 92.8% |
| CIFAR‑100 | 73.2% | 80% | 73.2% | 71.9% |
| ImageNet‑mini | 76.1% | 60% | 76.1% | 75.4% |
- 基于平衡驱动的方法始终能够实现 70‑80% 的稀疏率,且准确率下降不足 1%(绝对值)。
- 与基于幅度的剪枝和 L1 正则化基线相比,所提出的方法在 使用更少超参数(无需调节剪枝阈值)的情况下,达到了 相似或更好的权衡。
- 消融实验表明,参与变量能够在少数几个 epoch 内快速收敛,且最终的稀疏模式在不同随机种子下 保持稳定,显示出良好的鲁棒性。
实际意义
- One‑shot pruning: 开发者可以将该算法集成到常规训练流程中,避免繁琐的多阶段剪枝‑随后微调工作流。
- Hardware‑friendly sparsity: 由于参与标量会变为严格的零,得到的掩码是二进制的,可直接被稀疏矩阵库或专用加速器利用。
- Interpretability: 参与值提供了一个连续的重要性评分,在理论上有依据,使得审计模型中哪些部分是真正关键的更加容易。
- Reduced hyper‑parameter burden: 无需手动设置剪枝比例、阈值或调度正则化强度——平衡动力学会自动处理。
- Potential for adaptive inference: 因为参与度可以在运行时重新计算,设想一种动态稀疏化,模型可以在推理时根据资源约束进一步裁剪自身。
限制与未来工作
- 规模: 实验仅限于中等规模的模型和数据集;本文尚未在全尺度 ImageNet 或 transformer 架构上展示性能。
- 计算开销: 联合优化参与变量会在每个训练步骤中增加一个小的常数因子,对于非常大的模型可能会比较明显。
- 游戏设计选择: 成本/竞争项的具体形式会影响均衡;探索替代的效用函数可能会产生更好的稀疏模式。
- 向结构化剪枝的扩展: 虽然当前的公式适用于任意参数组,但将其应用于更复杂的结构(例如整个注意力头)仍是一个待探索的方向。
总体而言,将剪枝视为一个均衡问题提供了一条新颖、理论支撑的路径来构建更轻量的神经网络——这种方法有望简化模型部署流程,并激发游戏理论与深度学习交叉领域的新研究。
作者
- Zubair Shah
- Noaman Khan
论文信息
- arXiv ID: 2512.22106v1
- 分类: cs.AI
- 发表时间: 2025年12月26日
- PDF: 下载 PDF