[Paper] PLATE:可调塑性高效适配器用于几何感知持续学习

发布: (2026年2月4日 GMT+8 02:59)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.03846v1

概述

本文介绍了 PLATE(可塑性可调高效适配器),这是一种针对大型预训练模型的持续学习新技术,无需任何先前任务的数据。通过利用深度网络中自然出现的“几何冗余”,PLATE 让开发者在保持原有知识完整的前提下,将基础模型适配到新领域——这在原始预训练数据为专有或根本不可获得时是一个常见痛点。

关键贡献

  • 几何感知的可塑性控制 – 展示了冗余神经元如何编码主导的预训练特征方向,并可用于定义安全的更新子空间。
  • 低秩适配器设计 – 提出一种结构化更新 ΔW = B A Qᵀ,其中 BQ 为冻结的预计算矩阵,仅学习小矩阵 A 用于新任务。
  • 无需回放 – 在 不存储或重新访问任何旧任务数据 的情况下实现强大的持续学习性能。
  • 显式的权衡旋钮 – 提供可调参数,使实践者能够在每层层面上平衡 可塑性(学习速度)与 保持性(遗忘)。
  • 开源实现 – 完整代码已发布(GitHub),可直接接入 PyTorch / Hugging Face 流程。

方法论

  1. 检测冗余 – 作者分析预训练权重,以识别行为相似的神经元组(即位于低维子空间中)。这些组充当预训练期间学习到的主导方向的代理。
  2. 构建受保护子空间 – 利用识别出的冗余,分别从原始权重一次性构建两个正交基 BQB 跨越我们希望保留的“稳定”方向,而 Q 捕获我们允许变化的补充空间。
  3. 低秩适配器参数化 – 对于每一层,权重更新表示为 ΔW = B A Qᵀ。由于 BQ 被冻结,学习仅需优化体积更小的矩阵 A。这大幅降低可训练参数数量,并将更新限制在可控子空间内。
  4. 可塑性‑保持权衡 – 通过调整 A 的秩(或有选择地冻结 B/Q 的部分),开发者可以调节模型的适应程度与保持固定程度,从而实现对遗忘的细粒度控制。
  5. 训练循环 – 在新任务上使用标准梯度下降训练适配器 A,其余网络保持不变,省去了依赖旧数据的回放缓冲或正则化技巧。

结果与发现

设置基线(例如 EWC、LwF)PLATE(秩调优)遗忘(ΔAcc)平均准确率
5‑task split CIFAR‑10071.2 %78.5 %–3.1 %75.8 %
Domain shift (ImageNet → Places)68.4 %74.9 %–2.0 %71.6 %
NLP continual fine‑tuning (BERT)82.1 %86.3 %–1.5 %84.2 %

关键要点

  • 更高的保留率:与传统基于正则化的方法相比,PLATE 能持续降低灾难性遗忘,即使它从未看到旧任务数据。
  • 参数效率:适配器 A 通常每个任务仅增加 < 2 % 的额外参数,使其在设备端或多租户部署中实用。
  • 对秩选择的鲁棒性:实验显示出平滑的权衡曲线;适度的秩(例如 8–16)已能捕获大部分收益,而更高的秩则收益递减。

实际意义

  • 快速、轻量的数据模型升级 – 公司可以推出新功能(例如新的语言领域或视觉类别),而无需保留庞大的历史数据集,从而简化对隐私法规的合规。
  • 边缘设备持续学习 – 由于只需存储和更新一个极小的适配器,PLATE 非常适合在智能手机、物联网设备或需要实时从流数据中学习的嵌入式系统上运行。
  • 多租户 SaaS 平台 – 服务提供商可以维护一个单一的“基础”模型,并为每个客户生成轻量级适配器,从而降低存储成本并降低隔离风险。
  • 简化的 MLOps – 明确的可塑性保留旋钮对应一个超参数(rankfraction‑plastic),可以通过自动化流水线进行调优,避免了许多现有连续学习方案中复杂的回放缓冲区管理。

限制与未来工作

  • 冗余假设 – PLATE 的有效性取决于几何冗余的存在;极度紧凑或大量剪枝的模型可能提供更少的安全子空间。
  • 静态基BQ 仅从预训练权重计算一次;如果基础模型演化(例如通过持续预训练),则需要重新计算适配器。
  • 任务相似性偏差 – 当新任务与预训练分布共享某些底层特征结构时,该方法效果最佳;高度差异的领域仍可能出现显著漂移。
  • 未来方向 – 作者提出 (1) 在长期学习过程中动态更新基;(2) 将该方法扩展到 Transformer 注意力矩阵;以及 (3) 基于验证集性能探索自动秩选择策略。

作者

  • Romain Cosentino

论文信息

  • arXiv ID: 2602.03846v1
  • 分类: cs.LG, cs.AI
  • 发表时间: 2026年2月3日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »

[Paper] 伪可逆神经网络

Moore‑Penrose 伪逆 (PInv) 是线性系统的基本解。在本文中,我们提出了一种对 PInv 的自然推广……