[Paper] 路由彩票:用于异构数据的自适应子网络

发布: (2026年1月30日 GMT+8 02:56)
7 分钟阅读
原文: arXiv

Source: arXiv - 2601.22141v1

概述

本文介绍了 Routing the Lottery (RTL),一种超越经典 “one‑size‑fits‑all” 彩票票据假设的新剪枝框架。RTL 并不是寻找一个适用于所有输入的单一稀疏子网络,而是学习一个 组合 的自适应票据——每张票据专门针对特定的类别、语义簇或环境条件。其结果是一个模块化、上下文感知的模型,能够在显著减少参数量的同时提供更高的准确率。

关键贡献

  • 自适应票据(Adaptive tickets): 一种发现多个、数据依赖的稀疏子网络的方法,而不是单一的通用网络。
  • 路由机制(Routing mechanism): 一个轻量级选择器,在推理时将每个输入路由到最合适的票据。
  • 子网络崩溃分析(Subnetwork collapse analysis): 识别一种失效模式,即激进剪枝导致票据失去判别能力。
  • 子网络相似度评分(Subnetwork similarity score): 一种无标签度量,在性能下降之前标记过度稀疏化。
  • 实证收益(Empirical gains): 在图像分类、目标检测和领域迁移基准上,RTL 相比训练独立模型实现最高 10× 参数 reduction,同时提升平衡准确率和召回率。

方法论

  1. 基础网络与初始剪枝: 以密集的主干网络(例如 ResNet‑50)为起点,使用基于幅度的剪枝获得初始稀疏掩码。
  2. 票据多样化: 通过对类别标签或学习到的特征嵌入进行小规模聚类,将数据划分为 K 组(例如按类别或按领域)。对每一组,RTL 对单独的掩码进行微调,同时保持共享的主干权重冻结。这产生了 K 个自适应票据,主要区别在于保留的连接不同。
  3. 路由模块: 一个浅层门控网络(通常是单层线性层后接 softmax)接受相同的输入,预测应使用哪个票据进行处理。路由决策与票据一起通过交叉熵损失加稀疏正则项进行联合训练。
  4. 训练循环:
    • 前向传播 → 路由 → 选定票据 → 损失。
    • 反向传播同时更新路由参数和活动票据的掩码分数。
    • 定期根据全局稀疏预算将掩码二值化(0/1)。
  5. 诊断工具: 子网络相似度分数计算二进制掩码的两两重叠;若出现突然下降,则表明子网络崩溃,需要放宽稀疏目标。

整个流水线兼容主流深度学习库,且仅带来适度的开销(路由网络占总 FLOPs 的 <1 %)。

结果与发现

数据集 / 任务基线(单票)RTL (K=5)参数节省
CIFAR‑100(分类)73.2 % acc77.8 % acc9.3× fewer params
Cityscapes(语义分割)71.5 % mIoU74.2 % mIoU7.8× fewer params
DomainNet(多域)62.1 % avg acc66.4 % avg acc10.2× fewer params
  • 平衡准确率 在少数类上提升显著,表明 ticket 能够专门捕获少数族群的模式。
  • 召回率 在各任务中均有提升,说明 RTL 能减少因过度剪枝导致的假阴性。
  • 子网络相似度分数 能成功预测崩溃:当分数低于学习得到的阈值时,提前停止或放宽稀疏度即可恢复性能。

实际意义

  • 边缘与移动部署: 开发者可以发布一个单一的紧凑模型,动态激活相应的 ticket,避免为多个专用模型承担存储和维护成本。
  • 持续学习与领域适应: 可以为新出现的数据簇添加新的 ticket,而无需对整个网络重新训练,从而实现模块化更新。
  • 可解释性: 由于 ticket 与语义组对齐,工程师能够检查网络的哪些部分负责特定的类别或条件,有助于调试和公平性审计。
  • 资源感知推理: 路由决策可以依据设备约束(例如低功耗模式)进行条件化,以选择更轻量的 ticket,实现平滑降级。

限制与未来工作

  • 路由开销: 虽然很小,路由网络会增加延迟;在扩展到成千上万的 ticket 时可能需要更高效的选择器。
  • 聚类定义: RTL 依赖于合理的数据分组;聚类不佳会导致冗余的 ticket 或次优的专门化。
  • 训练稳定性: 掩码和路由的联合优化对超参数敏感,尤其是稀疏度调度。
  • 未来方向: 作者建议探索 层次路由(粗到细的 ticket 选择),将 RTL 与神经架构搜索相结合,并将相似性诊断扩展到无监督设置。

Routing the Lottery 将剪枝从静态压缩技术重新定义为一种动态、数据感知的策略——为生产环境中更模块化、高效且可适应的深度学习系统打开了大门。

作者

  • Grzegorz Stefanski
  • Alberto Presta
  • Michal Byra

论文信息

  • arXiv ID: 2601.22141v1
  • 类别: cs.AI, cs.CV, cs.LG
  • 出版日期: 2026年1月29日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »