[Paper] 几何单项式 (GEM):一族有理的 2N 可微激活函数
发布: (2026年4月23日 GMT+8 21:42)
8 分钟阅读
原文: arXiv
Source: arXiv - 2604.21677v1
概览
本文介绍了 Geometric Monomial (GEM),这是一类新的激活函数族,其平滑度可达第 (2N) 阶导数,同时仍然表现得像流行的 ReLU。通过使用对数逻辑累积分布函数(CDF)和纯有理运算,基于 GEM 的激活函数可以在 CPU、GPU,甚至边缘加速器上高效评估——但它们提供了许多现代架构(CNN、视觉 Transformer、LLM)所渴求的梯度友好特性。
关键贡献
- (C^{2N}) 平滑激活函数族 – 一组在数学上有依据的函数,其前 (2N) 阶导数连续,解决了 ReLU 的非平滑“拐点”问题。
- 三种具体变体
- GEM – 基础平滑激活函数。
- E‑GEM – 增加了 (\varepsilon) 缩放参数,使函数在任意 (L^{p}) 范数下都能任意逼近 ReLU。
- SE‑GEM – 分段版本,保证 无死神经元,同时保持 (C^{2N}) 接合处的平滑性。
- 实证 “N‑消融” 研究 – 表明在典型深度 CNN 中 (N=1) 最优,而在 transformer‑风格模型中 (N=2) 表现更佳。
- 在多个基准上的最新成果:
- CIFAR‑100 + ResNet‑56:GEM 将 GELU 的差距从 6.10 % 降至 2.12 %(E‑GEM 降至 0.62 %)。
- CIFAR‑10 + ResNet‑56:SE‑GEM((\varepsilon=10^{-4}))超越 GELU(92.51 % 对 92.44 %)。
- MNIST:E‑GEM 达到最佳基线水平(99.23 %)。
- GPT‑2(124 M):GEM 获得最低困惑度(72.57 对比 GELU 的 73.76)。
- BERT‑small:E‑GEM((\varepsilon=10))实现最佳验证损失(6.656)。
方法论
- 门的设计 – 激活函数的“门”遵循 对数逻辑 CDF,产生平滑的 S 形曲线,可用简单的有理函数(多项式的比值)表示。
- 通过 (N) 控制平滑度 – 将基准有理表达式提升到 (N) 次方得到一个连续可微至 (2N) 阶的函数族。实际中,(N=1) 或 (N=2) 已足以获得收益且计算成本不高。
- (\varepsilon) 参数化 (E‑GEM) – 将输入乘以尺度因子 (\varepsilon) 可以拉伸或压缩激活函数,使其在 (L^{p}) 意义上能够尽可能逼近 ReLU。较小的 (\varepsilon) 值使函数更陡峭(更像 ReLU),而较大的值则产生更平缓、更类似 gelu 的形状。
- 死亡神经元保护 (SE‑GEM) – 分段构造确保导数在任何有限输入下都不会为零,消除了经典的“死亡 ReLU”问题,同时在接点处保持 (C^{2N}) 平滑性。
- 实验方案 – 在多个模型族(ResNet‑56、Vision Transformers、GPT‑2、BERT‑small)和数据集(MNIST、CIFAR‑10/100)上系统性地对 (N) 与 (\varepsilon) 进行消融实验。与标准激活函数(ReLU、GELU、Swish、Mish)的比较使用相同的训练流程,以隔离激活函数本身的影响。
结果与发现
| 模型 / 数据集 | 激活函数 | 准确率 / 困惑度 / 损失 | 与 GELU 的显著 Δ |
|---|---|---|---|
| ResNet‑56 (CIFAR‑100) | GEM (N=2) | – | ↓ 6.10 % 差距 |
| ResNet‑56 (CIFAR‑100) | E‑GEM (ε≈10⁻⁴) | – | ↓ 0.62 % 差距 |
| ResNet‑56 (CIFAR‑10) | SE‑GEM (ε=10⁻⁴) | 92.51 % | + 0.07 % 超过 GELU |
| MNIST (simple MLP) | E‑GEM | 99.23 % | 与最佳基线持平 |
| GPT‑2 (124 M) | GEM (N=1) | Perplexity 73.32 | 优于 GELU (73.76) |
| GPT‑2 (124 M) | GEM (N=2) | Perplexity 72.57 | 整体最佳 |
| BERT‑small | E‑GEM (ε=10) | Val‑loss 6.656 | 在所有测试的激活函数中最佳 |
关键要点
- 平滑性重要:仅添加一次额外的导数连续性((N=1))就已缩小深度 CNN 与 GELU 之间的性能差距。
- 任务特定 (\varepsilon):小的 (\varepsilon)(≈10⁻⁴–10⁻⁶)在非常深的卷积堆叠中效果最佳,而较大的 (\varepsilon)(≈10)有利于梯度约束较少的浅层 Transformer 模型。
- 无死神经元:SE‑GEM 始终避免“死亡”现象且不牺牲准确率,对监控激活健康的生产流水线是实用的优势。
Practical Implications
- Drop‑in replacement for ReLU/GELU – 因为 GEM、E‑GEM 和 SE‑GEM 使用有理函数表示,它们可以通过少量算术操作和一次除法实现——无需使用复杂的内核或近似。现有深度学习框架(PyTorch、TensorFlow、JAX)可以将其作为自定义算子加入,几乎没有额外开销。
- Improved training stability – 更高阶的平滑性降低了激活边界处的梯度“冲击”,使损失曲线更平滑,并可能在超深或大批量设置下减少训练重启次数。
- Edge‑friendly inference – 有理算术对仅整数或定点硬件(如微控制器、ASIC)友好,因为除法可以用预先计算的倒数乘法近似。这为在对延迟敏感的推理工作负载中使用更平滑的激活函数提供了可能。
- Better transformer performance – 研究发现 (N=2) 对 Transformer 类模型有益,这表明语言模型开发者可以尝试使用 GEM‑2,在不改变模型结构或训练计划的情况下提升几分困惑度。
- Mitigating dead‑neuron bugs – SE‑GEM 保证梯度非零,消除了整类调试难题(例如所有 ReLU 都饱和为零导致层停止学习的情况)。
局限性与未来工作
- 计算成本 vs. ReLU – 虽然有理数算术运算成本低,但仍比单次比较的 ReLU 更昂贵。对于超高吞吐量的推理(例如每天处理数十亿请求),必须权衡其利弊。
- 超参数敏感性 – (\varepsilon) 的尺度需要针对不同模型族进行调优;论文提供了经验法则(深层 CNN 使用较小的 (\varepsilon),浅层 Transformer 使用较大的 (\varepsilon)),但仍缺乏自动化的选择方法。
- 架构多样性受限 – 实验主要集中在 ResNet‑56、标准 Vision Transformer、GPT‑2 和 BERT‑small 上。尚不清楚 GEM 在新兴架构(如扩散模型、图神经网络或大规模 LLM,例如 70 B+ 参数)中的表现。
- 泛化理论分析 – 虽然平滑性被认为有助于优化,但尚未正式探讨其与泛化误差或鲁棒性(例如对抗性抵抗)之间的关联。
未来方向 可以包括:开发在训练过程中动态变化的自适应 (\varepsilon) 调度,将 GEM 集成到硬件加速内核中,以及扩展平滑性分析以理解其对模型校准和不确定性估计的影响。
作者
- Eylon E. Krause
论文信息
- arXiv ID: 2604.21677v1
- 分类: cs.LG, cs.AI, cs.NE
- 出版日期: 2026年4月23日
- PDF: 下载 PDF