[Paper] NOBLE：使用非线性低秩分支加速 Transformer

发布: 3天前 (2026年3月7日 GMT+8 01:22)

7 分钟阅读

原文: arXiv

Source: arXiv - 2603.06492v1

概览

本文提出 NOBLE（Nonlinear lOw‑rank Branch for Linear Enhancement），这是一种轻量级的架构插件，适用于 transformer 模型，可在每个线性层中注入一个小的非线性低秩“分支”。与大多数仅在预训练后使用的参数高效微调技巧（例如 LoRA）不同，NOBLE 从模型一开始就内置，使 预训练 本身加速，同时只增加了极少量的参数（仅几百分点）。

关键贡献

永久低秩非线性分支：在每个 transformer 线性层内部引入可训练的瓶颈 (σ(xW↓)W↑)，其中 σ 为可学习的激活函数。
CosNet 激活：提出一种基于余弦的两层非线性，具备可学习的频率和相位，始终优于标准激活函数（ReLU、GELU、SiLU）。
训练时加速：展示了最多 1.47 倍更少的步骤即可达到基线损失（约 32 % 的训练步数减少），且每步时间开销仅 7 %，实现最高 1.22 倍的整体时钟加速。
广泛适用性：在一系列模型上验证——LLMs（250 M 与 1.5 B）、BERT、VQ‑GAN 与 Vision Transformers（ViT）——均表现出一致的效率提升。
增强交互分析：发现强随机增强（Mixup、CutMix）可能削弱 NOBLE 的收益，提供了方法何时发挥优势的洞见。

方法论

分支插入：对于 Transformer 中的每个线性投影 xW，添加一条并行的低秩路径：
- 下投影 W↓ 将维度降低（例如，768 → 64）。
- 非线性变换 σ(·) 采用可学习的激活函数。
- 上投影 W↑ 将维度恢复到原始大小。
- 分支的输出与原始线性输出相加，整体计算变为 xW + σ(xW↓)W↑。
CosNet 设计：σ 构建为 cos(α·z + β)，其中 α（频率）和 β（相位）是可训练向量，且在两个余弦层之间放置一个线性层。这样既赋予分支表达能力，又保持计算廉价。
训练方案：模型从头训练，整个过程保持分支激活，无需额外的微调阶段。
评估：作者将 NOBLE 与原始 Transformer 以及 LoRA 风格的适配器在多个任务上进行比较，测量 收敛速度（达到目标损失所需的步数）和 实际时钟时间（真实训练时长）。

结果与发现

模型	参数	额外参数 (NOBLE)	步骤时间 ↑	步数 ↓ 相对于基准	净壁钟时间 ↑
250 M LLM	250 M	+4 %	+7 %	–32 %	+22 %
1.5 B LLM	1.5 B	+4 %	+7 %	–30 %	+20 %
BERT‑base	110 M	+4 %	+7 %	–28 %	+18 %
ViT‑S/16 (ImageNet)	22 M	+4 %	+7 %	–25 %（禁用数据增强）	+15 %
VQ‑GAN	70 M	+4 %	+7 %	–27 %	+19 %

CosNet 在收敛速度上显著优于其他激活函数（ReLU、GELU、SiLU）。
参数开销极小（约占模型总大小的 4 %），使该方法在大规模训练预算中具有吸引力。
随机数据增强（Mixup、CutMix）可能抵消视觉任务的加速效果；禁用这些增强后可恢复提升。

实际影响

更快的预训练流水线：公司在训练大规模语言模型时，只需换用 NOBLE 分支，就能在不购买额外硬件的情况下，将训练时间缩短数周。
成本效益的扩展：由于开销只是一个很小的常数因子，该方法能够优雅地扩展到数十亿参数，提供更好的每标记成本比。
即插即用，适配现有代码库：该分支可以作为薄层包装器添加到现有线性层上，几乎不需要修改模型定义和训练脚本。
有望实现设备端微调：低秩特性使得额外参数能够轻松适应内存受限的环境，为大模型在设备端的适配提供可能。
关于数据增强的指导：对于视觉模型，实践者应评估是否需要激进的增强；如果训练速度是首要考虑，关闭增强可能更有价值。

限制与未来工作

与随机增强的交互：当使用 Mixup 或 CutMix 等强增强时，方法的收益会减弱，这表明正则化与速度之间存在权衡。
CosNet 的非通用性：虽然 CosNet 在作者的实验中表现最佳，但在其他领域（例如语音、强化学习）可能更倾向于使用不同的非线性函数。
理论理解：论文提出了一个经验性假设，即 NOBLE 捕捉到目标函数的“更尖锐”方面，但为何低秩非线性分支能够加速学习的正式分析仍有待探索。
向仅解码器架构的扩展：实验主要聚焦于编码器式（BERT、ViT）和编码器‑解码器（VQ‑GAN）模型；将 NOBLE 应用于纯解码器堆栈（如 GPT‑style）需要进一步研究。

总体而言，NOBLE 为希望在不牺牲模型容量的前提下加速 Transformer 训练的开发者提供了一种务实、低成本的手段——这是一项对大规模 AI 工程工具箱具有潜力的补充。

作者

Ethan Smith

论文信息

arXiv ID: 2603.06492v1
分类: cs.LG, cs.AI, cs.CL, cs.NE
出版日期: 2026年3月6日
PDF: 下载 PDF

[Paper] NOBLE：使用非线性低秩分支加速 Transformer

概览

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] PONTE：用于自然语言可信解释的个性化编排

[Paper] Fly360：全向障碍规避在无人机视角下

[Paper] SCOPE：场景上下文化增量少样本3D分割

[Paper] SUREON：用于外科推理的基准与视觉语言模型