[Paper] 路由彩票：用于异构数据的自适应子网络

发布: 1周前 (2026年1月30日 GMT+8 02:56)

7 分钟阅读

原文: arXiv

Source: arXiv - 2601.22141v1

概述

本文介绍了 Routing the Lottery (RTL)，一种超越经典 “one‑size‑fits‑all” 彩票票据假设的新剪枝框架。RTL 并不是寻找一个适用于所有输入的单一稀疏子网络，而是学习一个组合的自适应票据——每张票据专门针对特定的类别、语义簇或环境条件。其结果是一个模块化、上下文感知的模型，能够在显著减少参数量的同时提供更高的准确率。

关键贡献

自适应票据（Adaptive tickets）： 一种发现多个、数据依赖的稀疏子网络的方法，而不是单一的通用网络。
路由机制（Routing mechanism）： 一个轻量级选择器，在推理时将每个输入路由到最合适的票据。
子网络崩溃分析（Subnetwork collapse analysis）： 识别一种失效模式，即激进剪枝导致票据失去判别能力。
子网络相似度评分（Subnetwork similarity score）： 一种无标签度量，在性能下降之前标记过度稀疏化。
实证收益（Empirical gains）： 在图像分类、目标检测和领域迁移基准上，RTL 相比训练独立模型实现最高 10× 参数 reduction，同时提升平衡准确率和召回率。

方法论

基础网络与初始剪枝: 以密集的主干网络（例如 ResNet‑50）为起点，使用基于幅度的剪枝获得初始稀疏掩码。
票据多样化: 通过对类别标签或学习到的特征嵌入进行小规模聚类，将数据划分为 K 组（例如按类别或按领域）。对每一组，RTL 对单独的掩码进行微调，同时保持共享的主干权重冻结。这产生了 K 个自适应票据，主要区别在于保留的连接不同。
路由模块: 一个浅层门控网络（通常是单层线性层后接 softmax）接受相同的输入，预测应使用哪个票据进行处理。路由决策与票据一起通过交叉熵损失加稀疏正则项进行联合训练。
训练循环:
- 前向传播 → 路由 → 选定票据 → 损失。
- 反向传播同时更新路由参数和活动票据的掩码分数。
- 定期根据全局稀疏预算将掩码二值化（0/1）。
诊断工具: 子网络相似度分数计算二进制掩码的两两重叠；若出现突然下降，则表明子网络崩溃，需要放宽稀疏目标。

整个流水线兼容主流深度学习库，且仅带来适度的开销（路由网络占总 FLOPs 的 <1 %）。

结果与发现

数据集 / 任务	基线（单票）	RTL (K=5)	参数节省
CIFAR‑100（分类）	73.2 % acc	77.8 % acc	9.3× fewer params
Cityscapes（语义分割）	71.5 % mIoU	74.2 % mIoU	7.8× fewer params
DomainNet（多域）	62.1 % avg acc	66.4 % avg acc	10.2× fewer params

平衡准确率 在少数类上提升显著，表明 ticket 能够专门捕获少数族群的模式。
召回率 在各任务中均有提升，说明 RTL 能减少因过度剪枝导致的假阴性。
子网络相似度分数 能成功预测崩溃：当分数低于学习得到的阈值时，提前停止或放宽稀疏度即可恢复性能。

实际意义

边缘与移动部署： 开发者可以发布一个单一的紧凑模型，动态激活相应的 ticket，避免为多个专用模型承担存储和维护成本。
持续学习与领域适应： 可以为新出现的数据簇添加新的 ticket，而无需对整个网络重新训练，从而实现模块化更新。
可解释性： 由于 ticket 与语义组对齐，工程师能够检查网络的哪些部分负责特定的类别或条件，有助于调试和公平性审计。
资源感知推理： 路由决策可以依据设备约束（例如低功耗模式）进行条件化，以选择更轻量的 ticket，实现平滑降级。

限制与未来工作

路由开销: 虽然很小，路由网络会增加延迟；在扩展到成千上万的 ticket 时可能需要更高效的选择器。
聚类定义: RTL 依赖于合理的数据分组；聚类不佳会导致冗余的 ticket 或次优的专门化。
训练稳定性: 掩码和路由的联合优化对超参数敏感，尤其是稀疏度调度。
未来方向: 作者建议探索 层次路由（粗到细的 ticket 选择），将 RTL 与神经架构搜索相结合，并将相似性诊断扩展到无监督设置。

Routing the Lottery 将剪枝从静态压缩技术重新定义为一种动态、数据感知的策略——为生产环境中更模块化、高效且可适应的深度学习系统打开了大门。

作者

Grzegorz Stefanski
Alberto Presta
Michal Byra

论文信息

arXiv ID: 2601.22141v1
类别: cs.AI, cs.CV, cs.LG
出版日期: 2026年1月29日
PDF: 下载 PDF

[Paper] 路由彩票：用于异构数据的自适应子网络

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] VideoGPA：蒸馏几何先验以实现3D一致的视频生成

[Paper] 去噪深空：基于物理的 CCD 噪声形成用于天文成像

[论文] 无训练的测试时适应与 Brownian Distance Covariance 在视觉语言模型中的应用

[Paper] ShotFinder：想象驱动的开放域视频片段检索 via Web Search