[Paper] JumpLoRA：用于大语言模型持续学习的稀疏适配器

发布: 3周前 (2026年4月17日 GMT+8 23:38)

7 分钟阅读

原文: arXiv

Source: arXiv - 2604.16171v1

请提供您希望翻译的具体文本内容，我将为您翻译成简体中文。

概述

论文 “JumpLoRA: Sparse Adapters for Continual Learning in Large Language Models” 提出了一种轻量化方法，使得适配器——添加到冻结的大语言模型（LLM）中的微小可训练模块——在任务之间既 更稀疏 又 更隔离。通过在 LoRA 块中插入一个简单的门控函数 (JumpReLU)，作者实现了动态稀疏性，既抑制了灾难性遗忘，又保持了低计算开销。其结果是一个即插即用的升级，提升了现有基于 LoRA 的持续学习流水线的性能，甚至超越了当前最先进的方法 ELLA。

关键贡献

JumpReLU gating: 一种新颖的训练时门控机制，能够在 LoRA 矩阵中有选择地停用行/列，实时产生任务特定的稀疏性。
动态参数隔离: 该门控为每个任务创建“活跃参数岛”，在无需显式子空间约束的情况下降低干扰。
模块化兼容性: JumpLoRA 可堆叠在任何基于 LoRA 的持续学习方法之上（例如 IncLoRA），只需极少的代码修改。
实证提升: 在多个基准 CL 流（如 GLUE‑CL、持续问答）中，JumpLoRA + IncLoRA 的准确率相较于 ELLA 提升最高 4.2 %，且额外 FLOPs 不超过 30 %。
开源实现: 作者发布了一个 PyTorch 库，可与 Hugging Face 的 peft 适配器无缝集成。

方法论

基础架构： 以冻结的预训练大语言模型（例如 LLaMA‑7B）为起点，在注意力层和前馈层上附加标准的 LoRA 适配器（低秩矩阵 A 和 B）。
JumpReLU 门控： 对每个 LoRA 矩阵，学习一个并行的门控向量 g（维度与低秩维度相同）。前向传播时将 LoRA 的输出乘以 JumpReLU(g)，其中 JumpReLU 是分段线性函数，输出要么为 0（门关闭），要么为一个放大后的正值（门打开）。
任务特定稀疏性： 当新任务到来时，门控参数会重新初始化，并仅在该任务的数据上进行训练。由于门控呈二值化特征，许多行/列保持为零，实际上“关闭”了属于先前任务的适配器部分。
训练方案： 作者采用两阶段调度——首先在冻结 LoRA 权重的情况下，以较小的学习率微调门控；随后再共同更新 LoRA 权重和门控。对门控施加轻量的 L1 正则化以促进稀疏性。
与持续学习策略的集成： 现有的持续学习方法（例如 IncLoRA）已经为每个任务维护独立的 LoRA。JumpLoRA 只是在其上额外添加门控，因此可以复用相同的回放或正则化技巧。

结果与发现

数据集（持续设置）	基线（LoRA）	IncLoRA	ELLA（SOTA）	JumpLoRA + IncLoRA
GLUE‑CL（5 任务）	71.4 %	74.1 %	75.6 %	78.8 % (+3.2 % over ELLA)
持续问答（3 个领域）	62.7 %	65.9 %	66.5 %	69.3 % (+2.8 % over ELLA)
情感流（10 任务）	68.2 %	70.5 %	71.0 %	73.1 % (+2.1 % over ELLA)

参数效率： 每个任务的平均稀疏度达到 LoRA 权重的约 45 %，将 7B 模型的内存使用量削减约 0.5 GB。
训练速度： 额外的门控每个 epoch 只增加 < 5 % 的开销，与完整微调相比可忽略不计。
消融实验： 去除 L1 正则化或使用标准 ReLU 门会导致性能下降约 1.5 %，验证了 JumpReLU 设计的重要性。

实际意义

Plug‑and‑play adapters: 开发者可以使用 JumpLoRA 对现有基于 LoRA 的流水线（例如面向特定领域的聊天机器人）进行改装，从而实现更好的任务分离，而无需重新架构整个系统。
Edge deployment: 由于门控机制产生稀疏适配器，最终模型的占用更适合 GPU 内存受限的环境（例如在单块 RTX 3080 上进行推理）。
Rapid product iteration: 需要在冻结的 LLM 上快速推出新语言理解功能（情感分析、意图检测）的公司，现在可以在几分钟内添加新的“任务适配器”，并降低削弱已有功能的风险。
Continual fine‑tuning services: 提供“LLM 即服务”的云供应商可以开放一个 “sparse‑adapter” 接口，让客户上传任务数据并获得轻量、隔离的适配器包，可在运行时进行替换。

局限性与未来工作

任务相似性处理: JumpLoRA 将每个任务视为独立；当任务高度相关时，硬隔离可能会放弃有益的知识转移。
可扩展到数百个任务: 虽然每个适配器的内存保持低位，但门的累计数量呈线性增长，这可能成为管理负担。
评估范围: 实验聚焦于分类和问答；将该方法应用于生成密集型任务（例如代码合成）仍是未解之题。
未来方向: 作者建议探索允许受控共享的软门控调度，并将该方法与参数高效提示（例如前缀调优）结合，以实现更紧凑的资源预算。

作者

Alexandra Dragomir
Ioana Pintilie
Antonio Barbalau
Marius Dragoi
Florin Brad
Cristian Daniel Paduraru
Alexandru Tifrea
Elena Burceanu
Radu Tudor Ionescu

论文信息

arXiv ID: 2604.16171v1
分类: cs.LG, cs.AI, cs.CL
出版日期: 2026年4月17日
PDF: 下载 PDF

[Paper] JumpLoRA：用于大语言模型持续学习的稀疏适配器

概述

关键贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] 学习具备洞察的推理用于非形式定理证明

[Paper] VEFX-Bench：全方位基准用于通用视频编辑与视觉特效

[Paper] 从基准测试到推理：对越南法律文本的双维度大规模 LLM 评估

[Paper] 检测与抑制 Reward Hacking 的 Gradient Fingerprints