[Paper] 通过保持网络训练动态并使用 Concrete Ticket Search 赢得彩票
Source: arXiv - 2512.07142v1
概览
本文解决了 Lottery Ticket Hypothesis 中长期存在的瓶颈:在不进行大规模回滚训练的情况下,寻找超稀疏且高性能的子网络(即“中奖票”)。作者提出了 Concrete Ticket Search (CTS),一种基于组合优化的方法,可在接近初始化时发现中奖票,以极少的时间实现彩票票级别的准确率。
主要贡献
- Concrete Ticket Search (CTS):将子网络选择形式化为可微分的组合问题,使用 Concrete(连续)松弛的二进制掩码。
- GRADBALANCE:一种新颖的梯度平衡方案,自动将稀疏度引导至目标水平,消除脆弱的超参数调优。
- CTS‑KL 目标:利用逆 KL 散度损失(受知识蒸馏启发)使稀疏网络的输出与密集父网络对齐,显著提升早期训练动态。
- 全面的实证验证:证明 CTS 在 CIFAR‑10/100 和 ImageNet‑规模模型上匹配或超越最先进的 Lottery Ticket Rewinding (LTR),运行时间 最高提升 12 倍。
- 稳健的合理性检查:CTS 生成的票通过所有标准合理性测试(如随机重新初始化、权重洗牌),这些测试往往会暴露许多初始化剪枝(PaI)方法的弱点。
方法论
-
搜索空间松弛 – 为每个权重关联一个连续掩码变量 (m_i \in [0,1])。二进制掩码(保留或剪枝)通过 Concrete 分布近似,使梯度能够在掩码选择过程中传播。
-
目标函数 – 主要损失将标准分类损失与 逆 KL 项相结合:
\mathcal{L}_{\text{CTS‑KL}} = \mathcal{L}_{\text{CE}}(f_{\theta \odot m}(x), y) + \lambda \, \text{KL}\big(p_{\text{dense}}(x) \,\|\, p_{\text{sparse}}(x)\big)其中 (p_{\text{dense}}) 为完整网络的 softmax 输出,(p_{\text{sparse}}) 为掩码网络的输出。
-
GRADBALANCE – 在训练期间,对掩码变量的梯度进行缩放,使期望稀疏度保持在用户指定的目标附近。该动态缩放防止优化器收敛到全密集或全剪枝的极端解。
-
优化循环 – 只需对训练数据的一个适度子集(通常仅几轮)进行一次前向/后向传播,即可收敛到高质量掩码。最终的二进制掩码通过对学习到的连续掩码进行阈值化获得。
整个流程对每个模型只运行 一次,不同于需要多次完整训练循环并回滚的 LTR。
结果与发现
| 模型(数据集) | 目标稀疏度 | CTS 准确率 | LTR 准确率 | CTS 运行时间* |
|---|---|---|---|---|
| ResNet‑20(CIFAR‑10) | 99.3 % | 74.0 % | 68.3 % | 7.9 分钟 |
| VGG‑16(CIFAR‑100) | 95 % | 71.2 % | 70.5 % | 12 分钟 vs 110 分钟 (LTR) |
| WideResNet‑28‑10(CIFAR‑10) | 98 % | 78.1 % | 77.4 % | 15 分钟 vs 180 分钟 (LTR) |
*运行时间在单块 NVIDIA RTX 3090 上测量;包括掩码搜索 + 一个 epoch 的微调。
- 合理性检查:当密集权重重新初始化时,CTS 掩码仍能保持性能,说明发现的结构源自网络架构本身,而非特定初始化的副产品。
- 稀疏 regime 优势:当稀疏度超过 95 % 时,CTS 与 LTR 的性能差距扩大,凸显 CTS 捕捉关键权重依赖的能力,而这些是第一阶显著性方法所遗漏的。
- 消融实验:去除 KL 项会在高稀疏度下导致约 3 % 的准确率下降,关闭 GRADBALANCE 则会使稀疏目标不稳定并延长收敛时间。
实际意义
- 更快的模型压缩流水线 – 开发者现在可以在分钟级别获得彩票票级别的稀疏度,而不是数小时,从而使移动端、边缘 AI 等设备的模型部署更加敏捷。
- 降低云计算成本 – 由于 CTS 只消耗极少的训练预算,组织可以在不产生巨额 GPU 费用的情况下压缩大型视觉模型。
- 更好的可迁移性 – KL‑基目标对齐稀疏与密集输出,可在从研究原型到生产环境的 知识蒸馏式 微调中加以利用。
- 框架集成 – CTS 依赖标准的 autograd 与掩码乘法操作,可封装为 PyTorch 或 TensorFlow 模块,天然融入现有训练脚本。
- 跨模态潜力 – 虽然在图像分类上评估,但该方法与模态无关;有望加速 NLP Transformer、语音模型或强化学习代理的稀疏化。
局限性与未来工作
- 搜索数据子集 – CTS 目前使用少量训练子集进行掩码发现;虽然在视觉基准上有效,但对高度异构的数据集(如大规模 ImageNet)的影响仍需深入研究。
- 超参数敏感性 – 尽管 GRADBALANCE 减少了调优工作,KL 加权系数 (\lambda) 仍需对每种架构进行适度校准。
- 向结构化剪枝的扩展 – 当前形式产生的是非结构化稀疏,这对倾向块或通道剪枝的硬件加速器不够友好。未来工作可将 Concrete 松弛应用于结构化掩码变量。
- 理论保证 – 论文提供了实证证据,但缺乏对逆 KL 目标为何能保持训练动态的形式化分析;建立此类理论保证可进一步巩固该方法。
总体而言,Concrete Ticket Search 提供了一条务实且计算高效的路径来发现中奖票,为在真实 AI 系统中更广泛采用彩票票式稀疏打开了大门。
作者
- Tanay Arora
- Christof Teuscher
论文信息
- arXiv ID: 2512.07142v1
- 分类: cs.LG, cs.AI, cs.CV, cs.NE
- 发表时间: 2025 年 12 月 8 日
- PDF: Download PDF