[Paper] 微调方案定义了不同的持续学习问题

发布: 22小时前 (2026年4月24日 GMT+8 01:59)

8 分钟阅读

原文: arXiv

Source: arXiv - 2604.21927v1

概述

持续学习（CL）的目标是让神经网络在一个接一个地学习新任务的同时，不会灾难性地遗忘已掌握的知识。本文表明，允许微调的模型部分的多少——即“可训练深度”或你更新的参数子空间——会显著改变学习动态，并且可能颠倒流行 CL 算法的排名。换句话说，评估环境本身是一个隐藏变量，研究者需要明确对待。

对微调模式的形式化 为在固定可训练子空间上的投影优化，将可训练深度与有效更新信号关联起来。
跨五种深度模式的实证研究（从仅更新分类器头部到微调整个网络），针对四种广泛使用的持续学习方法：在线 EWC、LwF、SI 和 GEM。
全面基准，涵盖五个图像数据集（MNIST、Fashion‑MNIST、KMNIST、QMNIST、CIFAR‑100）以及每个数据集的 11 种随机任务顺序。
发现方法排名依赖于模式：一种在仅可训练头部时表现出色的算法，在更新更深层时可能落后于其他方法。
对遗忘与更新幅度的分析，揭示更深层的适应会导致更大的权重变化、更高的遗忘，以及两者之间更紧密的相关性。
呼吁采用模式感知的评估协议，将可训练深度作为持续学习研究中的显式实验因素。

定义可训练深度范围 – 作者固定一组保持可训练的层，而其他层被冻结。五种范围从“仅头部”（仅最终线性层）到“全网络”微调。
投影梯度下降 – 在训练期间，梯度被投影到由选定可训练参数张成的子空间，确保只有这些权重被更新。
持续学习设置 – 使用任务增量式 CL：呈现一系列分类任务，在每个任务之后模型必须保持对所有先前任务的性能。
评估的算法 – 在每种范围下运行四种代表性的 CL 策略：
- Online Elastic Weight Consolidation (EWC) – 对重要权重的变化进行正则化。
- Learning without Forgetting (LwF) – 使用知识蒸馏来保留先前行为。
- Synaptic Intelligence (SI) – 为每个权重累计重要性度量。
- Gradient Episodic Memory (GEM) – 保存一个小的重放缓冲区并强制梯度约束。
度量指标 – 记录跨任务的平均准确率、遗忘度量（对早期任务性能的下降）以及权重更新的范数。
统计稳健性 – 每个数据集在 11 种随机任务顺序上进行评估，结果进行聚合以降低顺序偏差。

排名不稳定：四种方法的相对顺序在几乎每个深度 regime 中都会变化；没有单一算法在所有 regime 中占据主导。
更新幅度随深度增大：当可训练层数增多时，权重更新的 L2 范数大约翻倍，表明学习信号更强，但也导致对先前学习表征的漂移更为激进。
遗忘与更新大小相关：更新幅度与遗忘程度的皮尔逊相关系数从约 0.3（仅头部）上升到约 0.7（整个网络），证实更深的微调会放大灾难性遗忘。
数据集依赖性：相对简单的灰度数据集（MNIST 变体）对深度变化的敏感度低于更复杂的 CIFAR‑100，在后者中更深的 regime 会导致显著的性能下降。

Model deployment pipelines：在将 CL 集成到生产环境时（例如，接收周期性更新的 edge devices），工程师必须决定 哪些层对在线适应开放。将更新限制在更高层可以更好地保留已有知识，但代价是适应速度变慢。
Hyper‑parameter tuning：微调深度应当被视为与 learning rate、replay buffer size 或 regularization strength 同等重要的超参数。Automated ML（AutoML）工具可以将 depth selection 纳入搜索空间。
Benchmark design：公共 CL 基准（例如 ContinualAI 的 CLBench）可能需要在多个深度 regime 上公布结果，以防止对单一微调设置的 “over‑fitting”。
Tooling for projected optimization：投影梯度方法在 PyTorch 或 TensorFlow 中实现非常直接（对每层使用二进制 mask 来屏蔽梯度）。这使得在自定义深度 regime 上进行快速实验成为可能。
Edge‑AI and privacy‑preserving updates：在只能传输模型参数小子集的场景（受带宽或隐私约束），上述发现指引了哪一子集能够在学习新任务与保留旧知识之间实现最佳权衡。