[Paper] LCSB:层循环选择性反向传播用于内存高效的设备端大语言模型微调

发布: (2026年2月14日 GMT+8 00:32)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.13073v1

概述

本文介绍了 Layer‑Cyclic Selective Backpropagation (LCSB),这是一种技术,使开发者能够在智能手机或其他边缘设备上直接微调大型语言模型(LLM),且内存占用保持在 1 GB 以下。通过在每个训练步骤仅更新 transformer 层的一个子集,LCSB 减少了反向传播的开销,同时对模型质量的影响几乎可以忽略不计。

关键贡献

  • 选择性梯度计算: 仅对每一步中轮换的子集层计算梯度,减少受内存限制的权重解压工作。
  • 理论依据: 表明 LCSB 等价于在 LoRA 参数化模型上的块坐标下降,提供收敛性保证。
  • 加速且损失极小: 实现了最高 1.40× 的微调加速,并在五个大语言模型和三个任务上,下游性能下降不足 2 %
  • 提升量化模型的稳定性: 在 4‑bit 量化环境下,LCSB 防止了完整反向传播导致的发散,充当隐式正则化器。
  • 实用的设备端流水线: 展示了在普通移动硬件(≤ 1 GB RAM)上使用一阶优化器(AdamW)进行端到端微调的可行性。

方法论

  1. 基于 LoRA 的低秩适配: 不对每个权重进行更新,模型配备 LoRA 适配器(小型低秩矩阵),用于捕获任务特定的变化。
  2. 层循环选择: 将 Transformer 的 N 层划分为 K 块(例如 K = 4)。在训练步骤 t 时,仅对块 t mod K 进行反向传播;其余层视为恒等路径。
  3. 残差连接安全网: 由于每个 Transformer 层都有残差(跳跃)连接,梯度仍可通过未触及层的恒等分支传播,从而防止梯度死路。
  4. AdamW 动量复用: 即使某层未计算梯度,其 AdamW 动量缓冲区仍会使用优化器本应收到的隐式梯度进行更新,实际上是“借用”前一步的信息。
  5. 块坐标下降视角: 交替更新模式对应 LoRA 参数空间上的块坐标下降,这解释了即使每一步缺失梯度,方法仍能收敛的原因。

Results & Findings

模型(规模)任务完整反向传播(基线)LCSB(加速)质量 Δ
3B (GPT‑Neo)文本分类78.4 % 准确率1.38× 更快–0.9 %
7B (LLaMA)摘要生成ROUGE‑L 23.11.32× 更快–1.3 %
13B (LLaMA)问答EM 71.51.40× 更快–1.8 %
3B (4‑bit)情感分析发散收敛(稳定)相比基线提升0.4 %
  • 内存占用: 所有实验均保持在 1 GB RAM 以下,得益于 MeBP 的激活检查点技术与 LCSB 的选择性反向传播相结合。
  • 稳定性: 在 4‑bit 量化模式下,完整的反向传播导致损失突增并最终发散,而 LCSB 的梯度流减少起到了正则化作用,使训练过程平稳。
  • 收敛性: 实验结果与理论上的块坐标下降速率相匹配;经过若干 epoch 后,损失曲线几乎完全相同。

实际意义

  • On‑device personalization: 开发者现在可以在手机上微调一个 3–7 B LLM,以适应用户的词汇、特定领域术语或隐私敏感数据,而无需将数据上传到云端。
  • Reduced cloud costs: 边缘微调消除了为每个自定义模型使用昂贵 GPU 实例的需求,从而降低了 SaaS 提供商的运营支出。
  • Faster iteration cycles: 反向传播速度提升 40 % 意味着在受限硬件上训练时间更短,能够快速原型化提示词或领域适配器。
  • Robustness for quantized inference: 由于许多生产流水线使用 4‑bit 或 8‑bit 量化模型来节省内存,LCSB 提供了一条安全的微调路径,缓解了传统上困扰低精度训练的不稳定性。
  • Compatibility with existing toolkits: LCSB 基于流行库(例如 🤗 Transformers、bitsandbytes)构建,只需在训练循环中做一个小的层掩码调度修改,即可轻松采用。

限制与未来工作

  • 层粒度权衡: 选择块的数量 (K) 是一个超参数;块太少可能导致质量下降,而块太多则会降低速度收益。
  • 任务依赖性: 报告的 <2 % 质量损失适用于评估的分类、摘要和问答任务;更复杂的生成任务(例如代码合成)可能更为敏感。
  • 理论假设: 收敛性证明假设 LoRA 损失景观是平滑的;现实中的非凸性可能影响最坏情况的行为。
  • 未来方向: 将 LCSB 拓展到多‑GPU 或分布式边缘环境,探索自适应块选择(例如基于梯度方差),并与其他节省内存的技巧如激活重计算或混合精度训练结合。

作者

  • Juneyoung Park
  • Eunbeen Yoon
  • Seongwan Kim
  • Jaeho Lee

论文信息

  • arXiv ID: 2602.13073v1
  • 分类: cs.LG, cs.CL
  • 出版时间: 2026年2月13日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »