[Paper] NOBLE:使用非线性低秩分支加速 Transformer
发布: (2026年3月7日 GMT+8 01:22)
7 分钟阅读
原文: arXiv
Source: arXiv - 2603.06492v1
概览
本文提出 NOBLE(Nonlinear lOw‑rank Branch for Linear Enhancement),这是一种轻量级的架构插件,适用于 transformer 模型,可在每个线性层中注入一个小的非线性低秩“分支”。与大多数仅在预训练后使用的参数高效微调技巧(例如 LoRA)不同,NOBLE 从模型一开始就内置,使 预训练 本身加速,同时只增加了极少量的参数(仅几百分点)。
关键贡献
- 永久低秩非线性分支:在每个 transformer 线性层内部引入可训练的瓶颈 (
σ(xW↓)W↑),其中σ为可学习的激活函数。 - CosNet 激活:提出一种基于余弦的两层非线性,具备可学习的频率和相位,始终优于标准激活函数(ReLU、GELU、SiLU)。
- 训练时加速:展示了最多 1.47 倍更少的步骤即可达到基线损失(约 32 % 的训练步数减少),且每步时间开销仅 7 %,实现最高 1.22 倍的整体时钟加速。
- 广泛适用性:在一系列模型上验证——LLMs(250 M 与 1.5 B)、BERT、VQ‑GAN 与 Vision Transformers(ViT)——均表现出一致的效率提升。
- 增强交互分析:发现强随机增强(Mixup、CutMix)可能削弱 NOBLE 的收益,提供了方法何时发挥优势的洞见。
方法论
- 分支插入:对于 Transformer 中的每个线性投影
xW,添加一条并行的低秩路径:- 下投影
W↓将维度降低(例如,768 → 64)。 - 非线性变换
σ(·)采用可学习的激活函数。 - 上投影
W↑将维度恢复到原始大小。 - 分支的输出与原始线性输出相加,整体计算变为
xW + σ(xW↓)W↑。
- 下投影
- CosNet 设计:
σ构建为cos(α·z + β),其中α(频率)和β(相位)是可训练向量,且在两个余弦层之间放置一个线性层。这样既赋予分支表达能力,又保持计算廉价。 - 训练方案:模型从头训练,整个过程保持分支激活,无需额外的微调阶段。
- 评估:作者将 NOBLE 与原始 Transformer 以及 LoRA 风格的适配器在多个任务上进行比较,测量 收敛速度(达到目标损失所需的步数)和 实际时钟时间(真实训练时长)。
结果与发现
| 模型 | 参数 | 额外参数 (NOBLE) | 步骤时间 ↑ | 步数 ↓ 相对于基准 | 净壁钟时间 ↑ |
|---|---|---|---|---|---|
| 250 M LLM | 250 M | +4 % | +7 % | –32 % | +22 % |
| 1.5 B LLM | 1.5 B | +4 % | +7 % | –30 % | +20 % |
| BERT‑base | 110 M | +4 % | +7 % | –28 % | +18 % |
| ViT‑S/16 (ImageNet) | 22 M | +4 % | +7 % | –25 %(禁用数据增强) | +15 % |
| VQ‑GAN | 70 M | +4 % | +7 % | –27 % | +19 % |
- CosNet 在收敛速度上显著优于其他激活函数(ReLU、GELU、SiLU)。
- 参数开销极小(约占模型总大小的 4 %),使该方法在大规模训练预算中具有吸引力。
- 随机数据增强(Mixup、CutMix)可能抵消视觉任务的加速效果;禁用这些增强后可恢复提升。
实际影响
- 更快的预训练流水线:公司在训练大规模语言模型时,只需换用 NOBLE 分支,就能在不购买额外硬件的情况下,将训练时间缩短数周。
- 成本效益的扩展:由于开销只是一个很小的常数因子,该方法能够优雅地扩展到数十亿参数,提供更好的每标记成本比。
- 即插即用,适配现有代码库:该分支可以作为薄层包装器添加到现有线性层上,几乎不需要修改模型定义和训练脚本。
- 有望实现设备端微调:低秩特性使得额外参数能够轻松适应内存受限的环境,为大模型在设备端的适配提供可能。
- 关于数据增强的指导:对于视觉模型,实践者应评估是否需要激进的增强;如果训练速度是首要考虑,关闭增强可能更有价值。
限制与未来工作
- 与随机增强的交互:当使用 Mixup 或 CutMix 等强增强时,方法的收益会减弱,这表明正则化与速度之间存在权衡。
- CosNet 的非通用性:虽然 CosNet 在作者的实验中表现最佳,但在其他领域(例如语音、强化学习)可能更倾向于使用不同的非线性函数。
- 理论理解:论文提出了一个经验性假设,即 NOBLE 捕捉到目标函数的“更尖锐”方面,但为何低秩非线性分支能够加速学习的正式分析仍有待探索。
- 向仅解码器架构的扩展:实验主要聚焦于编码器式(BERT、ViT)和编码器‑解码器(VQ‑GAN)模型;将 NOBLE 应用于纯解码器堆栈(如 GPT‑style)需要进一步研究。
总体而言,NOBLE 为希望在不牺牲模型容量的前提下加速 Transformer 训练的开发者提供了一种务实、低成本的手段——这是一项对大规模 AI 工程工具箱具有潜力的补充。
作者
- Ethan Smith
论文信息
- arXiv ID: 2603.06492v1
- 分类: cs.LG, cs.AI, cs.CL, cs.NE
- 出版日期: 2026年3月6日
- PDF: 下载 PDF