合并与界定:对权重的直接操作用于类增量学习
Source: arXiv - 2511.21490v1
概览
本文提出了 Merge‑and‑Bound (M & B),一种全新的 类增量学习 (CIL) 训练方案,它直接作用于模型权重,而不是通过修改损失函数或网络结构来实现。通过精心的权重合并与约束更新,该方法显著降低了灾难性遗忘,并且能够兼容任何已有的 CIL 流程。
主要贡献
- 权重空间合并: 两种新颖的合并操作——跨任务(对所有已学习任务的权重取平均)和 任务内(对当前任务的多个检查点进行合并)——在不改变网络结构的前提下重新塑造模型。
- 有界更新规则: 一个原则性的约束,使得新模型必须保持在合并后的“参考”权重附近,从而最小化累计漂移,保留已有知识。
- 即插即用设计: M & B 可以直接嵌入任何 CIL 方法(如 iCaRL、LUCIR、PODNet),无需修改损失、回放缓冲区或网络头部。
- 领先的实验结果: 在 CIFAR‑100、ImageNet‑Subset 和 TinyImageNet 上持续超越最新 CIL 基线,常常提升 2–5 % 的绝对准确率。
- 全面的分析: 通过消融实验分别评估每个合并组件的作用,并展示了对不同回放规模和任务顺序的鲁棒性。
方法论
-
跨任务权重合并 – 完成任务 t‑1 后,算法保存模型参数。当任务 t 开始时,计算所有已保存检查点(包括当前检查点)的简单平均。该“全局”权重向量充当 知识锚,体现网络迄今为止学到的内容。
-
任务内权重合并 – 在任务 t 的训练过程中,收集若干中间快照(例如每个 epoch 结束时),再通过平均合并得到一个 任务特定 表征,以平滑噪声更新。
-
有界更新 – 实际的优化步骤受到二次惩罚的约束,限制更新后权重与合并锚之间的距离。具体地,损失函数变为:
[ \mathcal{L}{\text{total}} = \mathcal{L}{\text{CIL}} + \lambda | \theta - \theta_{\text{merged}} |_2^2, ]
其中 (\theta) 为当前参数,(\theta_{\text{merged}}) 为两次合并的结果,超参数 (\lambda) 控制约束的“紧度”。
-
集成方式 – 由于额外项仅是对权重向量的正则化,它可以直接加入任何已有的 CIL 损失(交叉熵、蒸馏、对比等),无需触及模型结构或回放缓冲区。
结果与发现
| 数据集 | 基线(如 LUCIR) | LUCIR + M & B | 提升 |
|---|---|---|---|
| CIFAR‑100 (20 tasks) | 63.2 % | 68.1 % | +4.9 % |
| ImageNet‑Subset (10 tasks) | 71.5 % | 74.8 % | +3.3 % |
| TinyImageNet (10 tasks) | 55.0 % | 58.9 % | +3.9 % |
- 遗忘降低: 在学习完所有任务后,首任务的准确率下降从约 30 % 缩小到约 18 %,说明 M & B 有效抑制了遗忘。
- 对回放规模的鲁棒性: 即使回放缓冲区仅占数据集的 1 %,M & B 仍能带来超过 3 % 的提升,表明权重空间正则化并不依赖大量样本。
- 消融实验: 去除任务内合并会导致约 1.2 % 的下降;去除有界项会导致约 2.5 % 的下降,验证了两者的必要性。
总体而言,保持“接近”合并权重表征是一种低开销、有效的保持旧知识的方式。
实际意义
- 易于采纳: 开发者只需在任意 CIL 框架中添加几行代码(保存检查点、计算平均、加入正则项),无需新增层、庞大的回放或自定义优化器。
- 降低计算与内存占用: 该方法直接作用于参数向量,避免了昂贵的生成式回放或大规模示例缓冲,适合边缘设备或端侧持续学习。
- 对任务顺序的鲁棒性: 合并策略对任务呈现顺序无关,这在数据以不可预测顺序到达的真实场景(如增量产品目录、不断演化的传感器模态)中尤为重要。
- 超越 CIL 的潜力: 有界更新的思想可迁移到领域适应、联邦学习,甚至大语言模型的微调等需要保留“核心”表征的持续学习场景。
局限性与未来工作
- 合并方式过于简单: 目前仅使用普通平均;基于任务难度或置信度的加权平均等更复杂的合并策略可能带来进一步提升。
- 对超大模型的可扩展性: 为每个任务存储完整检查点在参数数以亿计的模型上会导致内存压力,作者建议探索低秩或 sketch‑based 表征方式。
- 理论保证不足: 虽然实验结果令人信服,但对有界更新为何能缓解遗忘的形式化分析仍待后续研究。
- 向非分类任务的扩展: 本文聚焦图像分类,如何将 M & B 应用于检测、分割或多模态任务仍是开放方向。
作者
- Taehoon Kim
- Donghwan Jang
- Bohyung Han
论文信息
- arXiv ID: 2511.21490v1
- 分类: cs.CV, cs.AI, cs.LG
- 发布日期: 2025 年 11 月 26 日
- PDF: Download PDF