[Paper] 更强的无归一化Transformer
发布: (2025年12月12日 GMT+8 02:58)
7 min read
原文: arXiv
Source: arXiv - 2512.10938v1
概览
论文 “Stronger Normalization‑Free Transformers” 表明我们可以舍弃在现代 Transformer 中已成为事实标准的重量级归一化层(LayerNorm、RMSNorm 等)。通过设计一种巧妙的点式激活函数 – Derf(x) = erf(αx + s) – 作者实现了在视觉、语音和基因组任务上的 更佳泛化能力,同时保持模型结构简洁且训练稳定。
主要贡献
- Derf 激活:引入一种基于误差函数(
erf)的新点式函数,能够限制极端值并提供比传统 tanh 替代方案更平滑的梯度。 - 大规模函数搜索:系统性地探索数千种候选函数,揭示了对归一化‑free 训练重要的设计原则。
- 实证优势:在多样化基准套件(ImageNet 分类、用于生成的 Vision Transformer、wav2vec‑style 语音编码器以及 DNA 序列模型)上,Derf 始终优于 LayerNorm、RMSNorm 以及此前提出的 Dynamic Tanh(DyT)。
- 以泛化为中心的分析:表明性能提升来源于对分布外数据的更好表现,而不仅仅是更高的训练精度。
- 实用配方:提供一种即插即用的归一化层替代方案,仅需少量额外超参数(
α与s),即可在现有 Transformer 代码库中直接使用。
方法论
- 理论基础 – 作者首先剖析点式函数如何影响梯度流、激活分布以及对异常值的“软裁剪”。他们确定了三个理想属性:有界输出、单调性以及可控的零点斜率。
- 搜索空间定义 – 构建了一个参数化函数族(包括 sigmoid、tanh、erf、多项式缩放等组合),并在小型代理任务(CIFAR‑10 上的微型 Transformer)上进行 网格+随机搜索,遍历数百万配置。
- 选择标准 – 候选函数依据 (a) 训练稳定性(无梯度爆炸/消失),(b) 验证损失,(c) 计算开销进行排序。表现最佳的设计即
Derf函数。 - 全尺度验证 – 将选定激活嵌入标准 Transformer 块(包括仅编码器和编码器‑解码器两种结构)跨四个领域进行实验,其他超参数保持与强基线完全一致。
- 消融研究 – 变动
α与s,与 DyT 与 LayerNorm 对比,并在标签随机化实验中检验其对泛化的独立影响。
结果与发现
| 领域 | 基线 (LayerNorm) | DyT | Derf(本工作) |
|---|---|---|---|
| ImageNet‑1K (ViT‑B/16) | 81.2 % top‑1 | 80.9 % | 82.5 % |
| 图像生成 (VQ‑GAN) | FID = 12.3 | FID = 12.0 | FID = 10.8 |
| 语音表征 (wav2vec‑2.0) | WER = 7.4 % | WER = 7.6 % | 7.0 % |
| DNA 序列建模 (Enformer) | Pearson = 0.91 | Pearson = 0.90 | 0.93 |
- 训练稳定性:即使学习率提升至典型 LayerNorm 设置的 2 倍,也未观察到梯度爆炸。
- 参数量与 FLOPs:与基线完全相同(Derf 仅为激活函数,无额外参数)。
- 泛化测试:在分布外图像腐蚀(ImageNet‑C)上,Derf 将平均腐蚀错误率提升约 3 %(相对降低)。
- 消融:去除
s偏置会导致性能下降约 0.5 %(绝对值),验证了其在调节激活工作点上的作用。
实际意义
- 更简洁的模型流水线 – 开发者可以去除 LayerNorm 层,降低代码复杂度以及混合精度处理时的潜在 bug。
- 速度与内存收益 – 消除每个 token 的均值/方差计算可削减一小部分但可测量的开销,尤其在内存带宽受限的边缘设备上更为显著。
- 更高学习率 regime – 更平滑的梯度景观使得实践者能够尝试更激进的学习率调度(如带 warm‑up 的余弦衰减),而不致不稳定。
- 跨领域可移植性 – 由于 Derf 仅是激活函数,可在任何 Transformer‑style 架构中使用:BERT 系列 NLP 模型、Vision Transformer、音频编码器,甚至新兴的多模态模型。
- 硬件加速潜力 –
erf已在多数 GPU/TPU 库中得到支持;通过少量近似(如有理多项式),可实现几乎无延迟的硬件实现。
局限性与未来工作
- 超参数敏感性 – 两个标量 (
α,s) 在不同领域仍需适度调优;论文给出默认值,但尚未找到通用设置。 - 对极深网络的兼容性 – 实验止步于约 48 层 Transformer,尚不清楚 Derf 是否能在 >200 层的大语言模型中保持效果。
- 理论保证 – 虽然实证证据充分,但关于 Derf 提升泛化的正式理论分析(如隐式正则化)仍缺失。
- 更广泛的架构族 – 本研究聚焦于 vanilla Transformer;将 Derf 应用于卷积‑增强或循环混合的混合模型可能会揭示新的权衡。
结论:Derf 提供了一种 即插即用、无需归一化的替代方案,在多种 AI 任务上实现了可观的提升。对于希望简化 Transformer 堆栈或推动训练稳定性极限的开发者而言,它是一个值得尝试的有力工具。
作者
- Mingzhi Chen
- Taiming Lu
- Jiachen Zhu
- Mingjie Sun
- Zhuang Liu
论文信息
- arXiv ID: 2512.10938v1
- 分类: cs.LG, cs.AI, cs.CL, cs.CV
- 发布日期: 2025 年 12 月 11 日
- PDF: Download PDF