[Paper] 更强的无归一化Transformer

发布: 1个月前 (2025年12月12日 GMT+8 02:58)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.10938v1

概览

论文 “Stronger Normalization‑Free Transformers” 表明我们可以舍弃在现代 Transformer 中已成为事实标准的重量级归一化层（LayerNorm、RMSNorm 等）。通过设计一种巧妙的点式激活函数 – Derf(x) = erf(αx + s) – 作者实现了在视觉、语音和基因组任务上的 更佳泛化能力，同时保持模型结构简洁且训练稳定。

主要贡献

Derf 激活：引入一种基于误差函数（erf）的新点式函数，能够限制极端值并提供比传统 tanh 替代方案更平滑的梯度。
大规模函数搜索：系统性地探索数千种候选函数，揭示了对归一化‑free 训练重要的设计原则。
实证优势：在多样化基准套件（ImageNet 分类、用于生成的 Vision Transformer、wav2vec‑style 语音编码器以及 DNA 序列模型）上，Derf 始终优于 LayerNorm、RMSNorm 以及此前提出的 Dynamic Tanh（DyT）。
以泛化为中心的分析：表明性能提升来源于对分布外数据的更好表现，而不仅仅是更高的训练精度。
实用配方：提供一种即插即用的归一化层替代方案，仅需少量额外超参数（α 与 s），即可在现有 Transformer 代码库中直接使用。

方法论

理论基础 – 作者首先剖析点式函数如何影响梯度流、激活分布以及对异常值的“软裁剪”。他们确定了三个理想属性：有界输出、单调性以及可控的零点斜率。
搜索空间定义 – 构建了一个参数化函数族（包括 sigmoid、tanh、erf、多项式缩放等组合），并在小型代理任务（CIFAR‑10 上的微型 Transformer）上进行 网格＋随机搜索，遍历数百万配置。
选择标准 – 候选函数依据 (a) 训练稳定性（无梯度爆炸/消失），(b) 验证损失，(c) 计算开销进行排序。表现最佳的设计即 Derf 函数。
全尺度验证 – 将选定激活嵌入标准 Transformer 块（包括仅编码器和编码器‑解码器两种结构）跨四个领域进行实验，其他超参数保持与强基线完全一致。
消融研究 – 变动 α 与 s，与 DyT 与 LayerNorm 对比，并在标签随机化实验中检验其对泛化的独立影响。

结果与发现

领域	基线 (LayerNorm)	DyT	Derf（本工作）
ImageNet‑1K (ViT‑B/16)	81.2 % top‑1	80.9 %	82.5 %
图像生成 (VQ‑GAN)	FID = 12.3	FID = 12.0	FID = 10.8
语音表征 (wav2vec‑2.0)	WER = 7.4 %	WER = 7.6 %	7.0 %
DNA 序列建模 (Enformer)	Pearson = 0.91	Pearson = 0.90	0.93

训练稳定性：即使学习率提升至典型 LayerNorm 设置的 2 倍，也未观察到梯度爆炸。
参数量与 FLOPs：与基线完全相同（Derf 仅为激活函数，无额外参数）。
泛化测试：在分布外图像腐蚀（ImageNet‑C）上，Derf 将平均腐蚀错误率提升约 3 %（相对降低）。
消融：去除 s 偏置会导致性能下降约 0.5 %（绝对值），验证了其在调节激活工作点上的作用。

实际意义

更简洁的模型流水线 – 开发者可以去除 LayerNorm 层，降低代码复杂度以及混合精度处理时的潜在 bug。
速度与内存收益 – 消除每个 token 的均值/方差计算可削减一小部分但可测量的开销，尤其在内存带宽受限的边缘设备上更为显著。
更高学习率 regime – 更平滑的梯度景观使得实践者能够尝试更激进的学习率调度（如带 warm‑up 的余弦衰减），而不致不稳定。
跨领域可移植性 – 由于 Derf 仅是激活函数，可在任何 Transformer‑style 架构中使用：BERT 系列 NLP 模型、Vision Transformer、音频编码器，甚至新兴的多模态模型。
硬件加速潜力 – erf 已在多数 GPU/TPU 库中得到支持；通过少量近似（如有理多项式），可实现几乎无延迟的硬件实现。

局限性与未来工作

超参数敏感性 – 两个标量 (α, s) 在不同领域仍需适度调优；论文给出默认值，但尚未找到通用设置。
对极深网络的兼容性 – 实验止步于约 48 层 Transformer，尚不清楚 Derf 是否能在 >200 层的大语言模型中保持效果。
理论保证 – 虽然实证证据充分，但关于 Derf 提升泛化的正式理论分析（如隐式正则化）仍缺失。
更广泛的架构族 – 本研究聚焦于 vanilla Transformer；将 Derf 应用于卷积‑增强或循环混合的混合模型可能会揭示新的权衡。

结论：Derf 提供了一种 即插即用、无需归一化的替代方案，在多种 AI 任务上实现了可观的提升。对于希望简化 Transformer 堆栈或推动训练稳定性极限的开发者而言，它是一个值得尝试的有力工具。

作者

Mingzhi Chen
Taiming Lu
Jiachen Zhu
Mingjie Sun
Zhuang Liu

论文信息

arXiv ID: 2512.10938v1
分类: cs.LG, cs.AI, cs.CL, cs.CV
发布日期: 2025 年 12 月 11 日
PDF: Download PDF

[Paper] 更强的无归一化Transformer

概览

主要贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] DentalGPT: 激励牙科中的多模态复杂推理

[Paper] 我们准备好在文本到3D生成中使用RL了吗？一次渐进式调查

[Paper] MedForget：层次感知多模态遗忘测试平台用于医学 AI

[Paper] Particulate: 前馈 3D 对象关节化