[Paper] 可证明的 Sinusoidal Activation 对 Modular Addition 的益处
Source: arXiv - 2511.23443v1
概览
本文研究了激活函数的选择如何影响神经网络学习 模加法(modular addition)的能力。模加法是一种基础算术操作,支撑着许多密码学和纠错码。通过比较 正弦(sinusoidal)激活 与常用的 ReLU,作者揭示正弦网络在表示和泛化模加法方面更为高效,无论是网络规模还是所需训练数据量。
关键贡献
- 表达能力突破: 证明仅有 两个隐藏单元 的两层正弦 MLP 就能精确计算任意固定输入长度的模加法;加入偏置项后,它还能对 所有 长度统一实现。
- ReLU 的局限性: 证明 ReLU 网络要实现相同的精确度,其隐藏层宽度必须随输入长度 (m) 线性增长,并且它们无法同时拟合两个在模数 (p) 下余数不同的长度。
- 泛化理论: 为常宽正弦网络引入一种新的 Natarajan 维度上界,得到经验风险最小化(ERM)的近最优样本复杂度 (\widetilde{O}(p))。
- 基于间隔的过参数化分析: 在网络高度过参数化时,推导出与宽度无关、由间隔驱动的泛化保证。
- 实验验证: 实验证明正弦激活网络在插值(拟合训练数据)和外推(预测未见序列长度)两方面始终优于 ReLU 对手,且在多种问题规模下表现一致。
方法论
-
问题设定 – 任务是学习函数
[ f(x_1,\dots,x_m)=\bigl(\sum_{i=1}^m x_i\bigr) \bmod p, ]
其中每个 (x_i) 为 ({0,\dots,p-1}) 中的整数。作者将其视为一个有 (p) 种可能输出的分类问题。 -
网络架构 –
- 正弦 MLP: 两层前馈网络,隐藏单元使用 (\sin(\cdot))(或 (\cos(\cdot)))激活,随后线性读出。
- ReLU MLP: 同样深度,但使用标准的分段线性 ReLU 激活。
-
表达能力分析 – 通过三角恒等式(例如模和的离散傅里叶变换),构造显式权重设置,使仅用两个正弦单元即可实现精确的模加法映射。对于 ReLU,作者利用线性区域的组合论证明了所需宽度的下界。
-
泛化界 –
- Natarajan 维度: 计算常宽正弦网络假设类的 Natarajan 维度,得到仅随模数 (p) 伸缩的样本复杂度上界。
- 间隔分析: 在过参数化 regime 下,利用网络间隔对 Rademacher 复杂度进行上界,显示最终界中不出现宽度项。
-
实验 – 生成不同长度 (m) 与模数 (p) 的合成模加法数据集。使用标准 SGD/Adam 训练正弦和 ReLU 网络,分别在 (a) 插值(与训练长度相同)和 (b) 外推(更长长度)上评估性能。
结果与发现
| 设置 | 网络 | 精确拟合所需宽度 | 测试准确率(插值) | 测试准确率(外推) |
|---|---|---|---|---|
| 固定 (m) | 正弦(2 单元) | 2 | 100 % | 100 %(即使对未见长度) |
| 固定 (m) | ReLU | (\Theta(m)) | ≈ 100 %(当宽度满足下界时) | 随长度增大急剧下降 |
| 变化 (m) | 正弦(2 单元 + 偏置) | 2 | 100 % | 100 %(可推广至远超训练长度) |
| 变化 (m) | ReLU | (\Theta(m)) | 100 %(仅在宽度随之扩展时) | 无法推广至训练之外的长度 |
- 样本复杂度: 实验曲线验证了 (\widetilde{O}(p)) 的 Natarajan‑维度预测——模数翻倍时所需训练样本大致翻倍。
- 间隔效应: 通过权重衰减或显式间隔损失获得更大间隔的网络表现出更紧的泛化,符合理论间隔界。
- 鲁棒性: 正弦网络在噪声输入和适度权重扰动下仍保持稳定,而 ReLU 网络的预测方差更大。
实际意义
-
密码学与安全计算 – 许多协议依赖模算术(如秘密共享、同态加密)。基于正弦的神经代理可以提供快速、可微的近似,并在小规模原型中保持精确性。
-
纠错码 – 解码算法常涉及模和。将正弦 MLP 嵌入端到端学习的解码器,可在显著减小模型体积的同时保持准确的解码逻辑。
-
资源受限设备 – 常宽、两单元的正弦网络占用极少内存和计算,适合需要算术推理的微控制器或边缘 AI 芯片。
-
神经架构设计 – 本工作提出更广泛的设计原则:周期性激活 能比分段线性函数更紧凑地编码算术结构。对具有固有模或循环模式的任务(如时段预测、机器人关节角度)可尝试正弦激活。
-
面向泛化的训练 – 间隔分析给出具体做法(正则化、增大隐藏层范数),实现宽度无关的泛化,在扩展模型规模时尤为有用。
局限性与未来工作
- 对大模数的可扩展性: 虽然理论保证 (\widetilde{O}(p)) 样本,但在密码学规模的模数(如 2048 位)上训练仍代价高昂,需要高效的训练技巧或层次化分解。
- 超出加法的扩展: 本文聚焦模加法,尚未证明正弦网络对乘法、指数或更复杂群运算是否具备类似表达能力。
- 硬件实现: 在定点硬件上实现高频正弦激活可能引入量化误差;探索查表或分段正弦近似是实际的后续步骤。
- 更广的激活族: 研究其他周期函数(如余弦、锯齿波或可学习的傅里叶基)可能揭示表达力、训练稳定性与硬件友好性之间的权衡。
总体而言,本文为在目标任务具备模或周期结构时重新审视正弦激活提供了有力证据,开启了在研究与生产环境中构建紧凑、可泛化神经模型的新方向。
作者
- Tianlong Huang
- Zhiyuan Li
论文信息
- arXiv ID: 2511.23443v1
- 分类: cs.LG, stat.ML
- 发布日期: 2025 年 11 月 28 日
- PDF: Download PDF