[Paper] PLATE：可调塑性高效适配器用于几何感知持续学习

发布: 5天前 (2026年2月4日 GMT+8 02:59)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.03846v1

概述

本文介绍了 PLATE（可塑性可调高效适配器），这是一种针对大型预训练模型的持续学习新技术，无需任何先前任务的数据。通过利用深度网络中自然出现的“几何冗余”，PLATE 让开发者在保持原有知识完整的前提下，将基础模型适配到新领域——这在原始预训练数据为专有或根本不可获得时是一个常见痛点。

关键贡献

几何感知的可塑性控制 – 展示了冗余神经元如何编码主导的预训练特征方向，并可用于定义安全的更新子空间。
低秩适配器设计 – 提出一种结构化更新 ΔW = B A Qᵀ，其中 B 和 Q 为冻结的预计算矩阵，仅学习小矩阵 A 用于新任务。
无需回放 – 在 不存储或重新访问任何旧任务数据 的情况下实现强大的持续学习性能。
显式的权衡旋钮 – 提供可调参数，使实践者能够在每层层面上平衡 可塑性（学习速度）与 保持性（遗忘）。
开源实现 – 完整代码已发布（GitHub），可直接接入 PyTorch / Hugging Face 流程。

方法论

检测冗余 – 作者分析预训练权重，以识别行为相似的神经元组（即位于低维子空间中）。这些组充当预训练期间学习到的主导方向的代理。
构建受保护子空间 – 利用识别出的冗余，分别从原始权重一次性构建两个正交基 B 和 Q。B 跨越我们希望保留的“稳定”方向，而 Q 捕获我们允许变化的补充空间。
低秩适配器参数化 – 对于每一层，权重更新表示为 ΔW = B A Qᵀ。由于 B 和 Q 被冻结，学习仅需优化体积更小的矩阵 A。这大幅降低可训练参数数量，并将更新限制在可控子空间内。
可塑性‑保持权衡 – 通过调整 A 的秩（或有选择地冻结 B/Q 的部分），开发者可以调节模型的适应程度与保持固定程度，从而实现对遗忘的细粒度控制。
训练循环 – 在新任务上使用标准梯度下降训练适配器 A，其余网络保持不变，省去了依赖旧数据的回放缓冲或正则化技巧。

结果与发现

设置	基线（例如 EWC、LwF）	PLATE（秩调优）	遗忘（ΔAcc）	平均准确率
5‑task split CIFAR‑100	71.2 %	78.5 %	–3.1 %	75.8 %
Domain shift (ImageNet → Places)	68.4 %	74.9 %	–2.0 %	71.6 %
NLP continual fine‑tuning (BERT)	82.1 %	86.3 %	–1.5 %	84.2 %

关键要点

更高的保留率：与传统基于正则化的方法相比，PLATE 能持续降低灾难性遗忘，即使它从未看到旧任务数据。
参数效率：适配器 A 通常每个任务仅增加 < 2 % 的额外参数，使其在设备端或多租户部署中实用。
对秩选择的鲁棒性：实验显示出平滑的权衡曲线；适度的秩（例如 8–16）已能捕获大部分收益，而更高的秩则收益递减。

实际意义

快速、轻量的数据模型升级 – 公司可以推出新功能（例如新的语言领域或视觉类别），而无需保留庞大的历史数据集，从而简化对隐私法规的合规。
边缘设备持续学习 – 由于只需存储和更新一个极小的适配器，PLATE 非常适合在智能手机、物联网设备或需要实时从流数据中学习的嵌入式系统上运行。
多租户 SaaS 平台 – 服务提供商可以维护一个单一的“基础”模型，并为每个客户生成轻量级适配器，从而降低存储成本并降低隔离风险。
简化的 MLOps – 明确的可塑性保留旋钮对应一个超参数（rank 或 fraction‑plastic），可以通过自动化流水线进行调优，避免了许多现有连续学习方案中复杂的回放缓冲区管理。

限制与未来工作

冗余假设 – PLATE 的有效性取决于几何冗余的存在；极度紧凑或大量剪枝的模型可能提供更少的安全子空间。
静态基 – B 和 Q 仅从预训练权重计算一次；如果基础模型演化（例如通过持续预训练），则需要重新计算适配器。
任务相似性偏差 – 当新任务与预训练分布共享某些底层特征结构时，该方法效果最佳；高度差异的领域仍可能出现显著漂移。
未来方向 – 作者提出 (1) 在长期学习过程中动态更新基；(2) 将该方法扩展到 Transformer 注意力矩阵；以及 (3) 基于验证集性能探索自动秩选择策略。

作者

Romain Cosentino

论文信息

arXiv ID: 2602.03846v1
分类: cs.LG, cs.AI
发表时间: 2026年2月3日
PDF: 下载 PDF

相关文章

阅读更多 »

[Paper] 伪可逆神经网络

Moore‑Penrose 伪逆 (PInv) 是线性系统的基本解。在本文中，我们提出了一种对 PInv 的自然推广……

[Paper] 共享 LoRA 子空间用于几乎严格的持续学习

高效且持续地将 large pretrained models 适配到新任务对于 real‑world deployment 至关重要，但由于 catastrophic forgetting 等挑战仍然困难。

[Paper] DyTopo：通过语义匹配的多智能体推理动态拓扑路由

由提示的大型语言模型构建的多代理系统可以提升多轮推理能力，然而大多数现有的流水线依赖于固定的、跨轨迹的通信……

[论文] CommCP：通过基于LLM的通信与共形预测实现高效多智能体协同

为了完成人类以 natural language 提供的任务，机器人必须解释指令，生成并回答与 scene understanding 相关的问题，……