[Paper] JumpLoRA:用于大语言模型持续学习的稀疏适配器
发布: (2026年4月17日 GMT+8 23:38)
7 分钟阅读
原文: arXiv
Source: arXiv - 2604.16171v1
请提供您希望翻译的具体文本内容,我将为您翻译成简体中文。
概述
论文 “JumpLoRA: Sparse Adapters for Continual Learning in Large Language Models” 提出了一种轻量化方法,使得适配器——添加到冻结的大语言模型(LLM)中的微小可训练模块——在任务之间既 更稀疏 又 更隔离。通过在 LoRA 块中插入一个简单的门控函数 (JumpReLU),作者实现了动态稀疏性,既抑制了灾难性遗忘,又保持了低计算开销。其结果是一个即插即用的升级,提升了现有基于 LoRA 的持续学习流水线的性能,甚至超越了当前最先进的方法 ELLA。
关键贡献
- JumpReLU gating: 一种新颖的训练时门控机制,能够在 LoRA 矩阵中有选择地停用行/列,实时产生任务特定的稀疏性。
- 动态参数隔离: 该门控为每个任务创建“活跃参数岛”,在无需显式子空间约束的情况下降低干扰。
- 模块化兼容性: JumpLoRA 可堆叠在任何基于 LoRA 的持续学习方法之上(例如 IncLoRA),只需极少的代码修改。
- 实证提升: 在多个基准 CL 流(如 GLUE‑CL、持续问答)中,JumpLoRA + IncLoRA 的准确率相较于 ELLA 提升最高 4.2 %,且额外 FLOPs 不超过 30 %。
- 开源实现: 作者发布了一个 PyTorch 库,可与 Hugging Face 的
peft适配器无缝集成。
方法论
- 基础架构: 以冻结的预训练大语言模型(例如 LLaMA‑7B)为起点,在注意力层和前馈层上附加标准的 LoRA 适配器(低秩矩阵 A 和 B)。
- JumpReLU 门控: 对每个 LoRA 矩阵,学习一个并行的门控向量 g(维度与低秩维度相同)。前向传播时将 LoRA 的输出乘以
JumpReLU(g),其中 JumpReLU 是分段线性函数,输出要么为 0(门关闭),要么为一个放大后的正值(门打开)。 - 任务特定稀疏性: 当新任务到来时,门控参数会重新初始化,并仅在该任务的数据上进行训练。由于门控呈二值化特征,许多行/列保持为零,实际上“关闭”了属于先前任务的适配器部分。
- 训练方案: 作者采用两阶段调度——首先在冻结 LoRA 权重的情况下,以较小的学习率微调门控;随后再共同更新 LoRA 权重和门控。对门控施加轻量的 L1 正则化以促进稀疏性。
- 与持续学习策略的集成: 现有的持续学习方法(例如 IncLoRA)已经为每个任务维护独立的 LoRA。JumpLoRA 只是在其上额外添加门控,因此可以复用相同的回放或正则化技巧。
结果与发现
| 数据集(持续设置) | 基线(LoRA) | IncLoRA | ELLA(SOTA) | JumpLoRA + IncLoRA |
|---|---|---|---|---|
| GLUE‑CL(5 任务) | 71.4 % | 74.1 % | 75.6 % | 78.8 % (+3.2 % over ELLA) |
| 持续问答(3 个领域) | 62.7 % | 65.9 % | 66.5 % | 69.3 % (+2.8 % over ELLA) |
| 情感流(10 任务) | 68.2 % | 70.5 % | 71.0 % | 73.1 % (+2.1 % over ELLA) |
- 参数效率: 每个任务的平均稀疏度达到 LoRA 权重的约 45 %,将 7B 模型的内存使用量削减约 0.5 GB。
- 训练速度: 额外的门控每个 epoch 只增加 < 5 % 的开销,与完整微调相比可忽略不计。
- 消融实验: 去除 L1 正则化或使用标准 ReLU 门会导致性能下降约 1.5 %,验证了 JumpReLU 设计的重要性。
实际意义
- Plug‑and‑play adapters: 开发者可以使用 JumpLoRA 对现有基于 LoRA 的流水线(例如面向特定领域的聊天机器人)进行改装,从而实现更好的任务分离,而无需重新架构整个系统。
- Edge deployment: 由于门控机制产生稀疏适配器,最终模型的占用更适合 GPU 内存受限的环境(例如在单块 RTX 3080 上进行推理)。
- Rapid product iteration: 需要在冻结的 LLM 上快速推出新语言理解功能(情感分析、意图检测)的公司,现在可以在几分钟内添加新的“任务适配器”,并降低削弱已有功能的风险。
- Continual fine‑tuning services: 提供“LLM 即服务”的云供应商可以开放一个 “sparse‑adapter” 接口,让客户上传任务数据并获得轻量、隔离的适配器包,可在运行时进行替换。
局限性与未来工作
- 任务相似性处理: JumpLoRA 将每个任务视为独立;当任务高度相关时,硬隔离可能会放弃有益的知识转移。
- 可扩展到数百个任务: 虽然每个适配器的内存保持低位,但门的累计数量呈线性增长,这可能成为管理负担。
- 评估范围: 实验聚焦于分类和问答;将该方法应用于生成密集型任务(例如代码合成)仍是未解之题。
- 未来方向: 作者建议探索允许受控共享的软门控调度,并将该方法与参数高效提示(例如前缀调优)结合,以实现更紧凑的资源预算。
作者
- Alexandra Dragomir
- Ioana Pintilie
- Antonio Barbalau
- Marius Dragoi
- Florin Brad
- Cristian Daniel Paduraru
- Alexandru Tifrea
- Elena Burceanu
- Radu Tudor Ionescu
论文信息
- arXiv ID: 2604.16171v1
- 分类: cs.LG, cs.AI, cs.CL
- 出版日期: 2026年4月17日
- PDF: 下载 PDF