[Paper] NOBLE:使用非线性低秩分支加速 Transformer

发布: (2026年3月7日 GMT+8 01:22)
7 分钟阅读
原文: arXiv

Source: arXiv - 2603.06492v1

概览

本文提出 NOBLE(Nonlinear lOw‑rank Branch for Linear Enhancement),这是一种轻量级的架构插件,适用于 transformer 模型,可在每个线性层中注入一个小的非线性低秩“分支”。与大多数仅在预训练后使用的参数高效微调技巧(例如 LoRA)不同,NOBLE 从模型一开始就内置,使 预训练 本身加速,同时只增加了极少量的参数(仅几百分点)。

关键贡献

  • 永久低秩非线性分支:在每个 transformer 线性层内部引入可训练的瓶颈 (σ(xW↓)W↑),其中 σ 为可学习的激活函数。
  • CosNet 激活:提出一种基于余弦的两层非线性,具备可学习的频率和相位,始终优于标准激活函数(ReLU、GELU、SiLU)。
  • 训练时加速:展示了最多 1.47 倍更少的步骤即可达到基线损失(约 32 % 的训练步数减少),且每步时间开销仅 7 %,实现最高 1.22 倍的整体时钟加速
  • 广泛适用性:在一系列模型上验证——LLMs(250 M 与 1.5 B)、BERT、VQ‑GAN 与 Vision Transformers(ViT)——均表现出一致的效率提升。
  • 增强交互分析:发现强随机增强(Mixup、CutMix)可能削弱 NOBLE 的收益,提供了方法何时发挥优势的洞见。

方法论

  1. 分支插入:对于 Transformer 中的每个线性投影 xW,添加一条并行的低秩路径:
    • 下投影 W↓ 将维度降低(例如,768 → 64)。
    • 非线性变换 σ(·) 采用可学习的激活函数。
    • 上投影 W↑ 将维度恢复到原始大小。
    • 分支的输出与原始线性输出相加,整体计算变为 xW + σ(xW↓)W↑
  2. CosNet 设计σ 构建为 cos(α·z + β),其中 α(频率)和 β(相位)是可训练向量,且在两个余弦层之间放置一个线性层。这样既赋予分支表达能力,又保持计算廉价。
  3. 训练方案:模型从头训练,整个过程保持分支激活,无需额外的微调阶段。
  4. 评估:作者将 NOBLE 与原始 Transformer 以及 LoRA 风格的适配器在多个任务上进行比较,测量 收敛速度(达到目标损失所需的步数)和 实际时钟时间(真实训练时长)。

结果与发现

模型参数额外参数 (NOBLE)步骤时间 ↑步数 ↓ 相对于基准净壁钟时间 ↑
250 M LLM250 M+4 %+7 %–32 %+22 %
1.5 B LLM1.5 B+4 %+7 %–30 %+20 %
BERT‑base110 M+4 %+7 %–28 %+18 %
ViT‑S/16 (ImageNet)22 M+4 %+7 %–25 %(禁用数据增强)+15 %
VQ‑GAN70 M+4 %+7 %–27 %+19 %
  • CosNet 在收敛速度上显著优于其他激活函数(ReLU、GELU、SiLU)。
  • 参数开销极小(约占模型总大小的 4 %),使该方法在大规模训练预算中具有吸引力。
  • 随机数据增强(Mixup、CutMix)可能抵消视觉任务的加速效果;禁用这些增强后可恢复提升。

实际影响

  • 更快的预训练流水线:公司在训练大规模语言模型时,只需换用 NOBLE 分支,就能在不购买额外硬件的情况下,将训练时间缩短数周。
  • 成本效益的扩展:由于开销只是一个很小的常数因子,该方法能够优雅地扩展到数十亿参数,提供更好的每标记成本比。
  • 即插即用,适配现有代码库:该分支可以作为薄层包装器添加到现有线性层上,几乎不需要修改模型定义和训练脚本。
  • 有望实现设备端微调:低秩特性使得额外参数能够轻松适应内存受限的环境,为大模型在设备端的适配提供可能。
  • 关于数据增强的指导:对于视觉模型,实践者应评估是否需要激进的增强;如果训练速度是首要考虑,关闭增强可能更有价值。

限制与未来工作

  • 与随机增强的交互:当使用 Mixup 或 CutMix 等强增强时,方法的收益会减弱,这表明正则化与速度之间存在权衡。
  • CosNet 的非通用性:虽然 CosNet 在作者的实验中表现最佳,但在其他领域(例如语音、强化学习)可能更倾向于使用不同的非线性函数。
  • 理论理解:论文提出了一个经验性假设,即 NOBLE 捕捉到目标函数的“更尖锐”方面,但为何低秩非线性分支能够加速学习的正式分析仍有待探索。
  • 向仅解码器架构的扩展:实验主要聚焦于编码器式(BERT、ViT)和编码器‑解码器(VQ‑GAN)模型;将 NOBLE 应用于纯解码器堆栈(如 GPT‑style)需要进一步研究。

总体而言,NOBLE 为希望在不牺牲模型容量的前提下加速 Transformer 训练的开发者提供了一种务实、低成本的手段——这是一项对大规模 AI 工程工具箱具有潜力的补充。

作者

  • Ethan Smith

论文信息

  • arXiv ID: 2603.06492v1
  • 分类: cs.LG, cs.AI, cs.CL, cs.NE
  • 出版日期: 2026年3月6日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »