合并与界定：对权重的直接操作用于类增量学习

发布: 2个月前 (2025年11月26日 GMT+8 23:24)

7 分钟阅读

原文: arXiv

Source: arXiv - 2511.21490v1

概览

本文提出了 Merge‑and‑Bound (M & B)，一种全新的 类增量学习 (CIL) 训练方案，它直接作用于模型权重，而不是通过修改损失函数或网络结构来实现。通过精心的权重合并与约束更新，该方法显著降低了灾难性遗忘，并且能够兼容任何已有的 CIL 流程。

权重空间合并： 两种新颖的合并操作——跨任务（对所有已学习任务的权重取平均）和 任务内（对当前任务的多个检查点进行合并）——在不改变网络结构的前提下重新塑造模型。
有界更新规则： 一个原则性的约束，使得新模型必须保持在合并后的“参考”权重附近，从而最小化累计漂移，保留已有知识。
即插即用设计： M & B 可以直接嵌入任何 CIL 方法（如 iCaRL、LUCIR、PODNet），无需修改损失、回放缓冲区或网络头部。
领先的实验结果： 在 CIFAR‑100、ImageNet‑Subset 和 TinyImageNet 上持续超越最新 CIL 基线，常常提升 2–5 % 的绝对准确率。
全面的分析： 通过消融实验分别评估每个合并组件的作用，并展示了对不同回放规模和任务顺序的鲁棒性。

跨任务权重合并 – 完成任务 t‑1 后，算法保存模型参数。当任务 t 开始时，计算所有已保存检查点（包括当前检查点）的简单平均。该“全局”权重向量充当 知识锚，体现网络迄今为止学到的内容。
任务内权重合并 – 在任务 t 的训练过程中，收集若干中间快照（例如每个 epoch 结束时），再通过平均合并得到一个 任务特定 表征，以平滑噪声更新。
有界更新 – 实际的优化步骤受到二次惩罚的约束，限制更新后权重与合并锚之间的距离。具体地，损失函数变为：

[ \mathcal{L}{\text{total}} = \mathcal{L}{\text{CIL}} + \lambda | \theta - \theta_{\text{merged}} |_2^2, ]

其中 (\theta) 为当前参数，(\theta_{\text{merged}}) 为两次合并的结果，超参数 (\lambda) 控制约束的“紧度”。
集成方式 – 由于额外项仅是对权重向量的正则化，它可以直接加入任何已有的 CIL 损失（交叉熵、蒸馏、对比等），无需触及模型结构或回放缓冲区。

数据集	基线（如 LUCIR）	LUCIR + M & B	提升
CIFAR‑100 (20 tasks)	63.2 %	68.1 %	+4.9 %
ImageNet‑Subset (10 tasks)	71.5 %	74.8 %	+3.3 %
TinyImageNet (10 tasks)	55.0 %	58.9 %	+3.9 %

总体而言，保持“接近”合并权重表征是一种低开销、有效的保持旧知识的方式。