[Paper] 更强的无归一化Transformer

发布: (2025年12月12日 GMT+8 02:58)
7 min read
原文: arXiv

Source: arXiv - 2512.10938v1

概览

论文 “Stronger Normalization‑Free Transformers” 表明我们可以舍弃在现代 Transformer 中已成为事实标准的重量级归一化层(LayerNorm、RMSNorm 等)。通过设计一种巧妙的点式激活函数 – Derf(x) = erf(αx + s) – 作者实现了在视觉、语音和基因组任务上的 更佳泛化能力,同时保持模型结构简洁且训练稳定。

主要贡献

  • Derf 激活:引入一种基于误差函数(erf)的新点式函数,能够限制极端值并提供比传统 tanh 替代方案更平滑的梯度。
  • 大规模函数搜索:系统性地探索数千种候选函数,揭示了对归一化‑free 训练重要的设计原则。
  • 实证优势:在多样化基准套件(ImageNet 分类、用于生成的 Vision Transformer、wav2vec‑style 语音编码器以及 DNA 序列模型)上,Derf 始终优于 LayerNorm、RMSNorm 以及此前提出的 Dynamic Tanh(DyT)。
  • 以泛化为中心的分析:表明性能提升来源于对分布外数据的更好表现,而不仅仅是更高的训练精度。
  • 实用配方:提供一种即插即用的归一化层替代方案,仅需少量额外超参数(αs),即可在现有 Transformer 代码库中直接使用。

方法论

  1. 理论基础 – 作者首先剖析点式函数如何影响梯度流、激活分布以及对异常值的“软裁剪”。他们确定了三个理想属性:有界输出、单调性以及可控的零点斜率。
  2. 搜索空间定义 – 构建了一个参数化函数族(包括 sigmoid、tanh、erf、多项式缩放等组合),并在小型代理任务(CIFAR‑10 上的微型 Transformer)上进行 网格+随机搜索,遍历数百万配置。
  3. 选择标准 – 候选函数依据 (a) 训练稳定性(无梯度爆炸/消失),(b) 验证损失,(c) 计算开销进行排序。表现最佳的设计即 Derf 函数。
  4. 全尺度验证 – 将选定激活嵌入标准 Transformer 块(包括仅编码器和编码器‑解码器两种结构)跨四个领域进行实验,其他超参数保持与强基线完全一致。
  5. 消融研究 – 变动 αs,与 DyT 与 LayerNorm 对比,并在标签随机化实验中检验其对泛化的独立影响。

结果与发现

领域基线 (LayerNorm)DyTDerf(本工作)
ImageNet‑1K (ViT‑B/16)81.2 % top‑180.9 %82.5 %
图像生成 (VQ‑GAN)FID = 12.3FID = 12.0FID = 10.8
语音表征 (wav2vec‑2.0)WER = 7.4 %WER = 7.6 %7.0 %
DNA 序列建模 (Enformer)Pearson = 0.91Pearson = 0.900.93
  • 训练稳定性:即使学习率提升至典型 LayerNorm 设置的 2 倍,也未观察到梯度爆炸。
  • 参数量与 FLOPs:与基线完全相同(Derf 仅为激活函数,无额外参数)。
  • 泛化测试:在分布外图像腐蚀(ImageNet‑C)上,Derf 将平均腐蚀错误率提升约 3 %(相对降低)。
  • 消融:去除 s 偏置会导致性能下降约 0.5 %(绝对值),验证了其在调节激活工作点上的作用。

实际意义

  • 更简洁的模型流水线 – 开发者可以去除 LayerNorm 层,降低代码复杂度以及混合精度处理时的潜在 bug。
  • 速度与内存收益 – 消除每个 token 的均值/方差计算可削减一小部分但可测量的开销,尤其在内存带宽受限的边缘设备上更为显著。
  • 更高学习率 regime – 更平滑的梯度景观使得实践者能够尝试更激进的学习率调度(如带 warm‑up 的余弦衰减),而不致不稳定。
  • 跨领域可移植性 – 由于 Derf 仅是激活函数,可在任何 Transformer‑style 架构中使用:BERT 系列 NLP 模型、Vision Transformer、音频编码器,甚至新兴的多模态模型。
  • 硬件加速潜力erf 已在多数 GPU/TPU 库中得到支持;通过少量近似(如有理多项式),可实现几乎无延迟的硬件实现。

局限性与未来工作

  • 超参数敏感性 – 两个标量 (α, s) 在不同领域仍需适度调优;论文给出默认值,但尚未找到通用设置。
  • 对极深网络的兼容性 – 实验止步于约 48 层 Transformer,尚不清楚 Derf 是否能在 >200 层的大语言模型中保持效果。
  • 理论保证 – 虽然实证证据充分,但关于 Derf 提升泛化的正式理论分析(如隐式正则化)仍缺失。
  • 更广泛的架构族 – 本研究聚焦于 vanilla Transformer;将 Derf 应用于卷积‑增强或循环混合的混合模型可能会揭示新的权衡。

结论:Derf 提供了一种 即插即用、无需归一化的替代方案,在多种 AI 任务上实现了可观的提升。对于希望简化 Transformer 堆栈或推动训练稳定性极限的开发者而言,它是一个值得尝试的有力工具。

作者

  • Mingzhi Chen
  • Taiming Lu
  • Jiachen Zhu
  • Mingjie Sun
  • Zhuang Liu

论文信息

  • arXiv ID: 2512.10938v1
  • 分类: cs.LG, cs.AI, cs.CL, cs.CV
  • 发布日期: 2025 年 12 月 11 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »