[Paper] SUPN: 浅层通用多项式网络
发布: (2025年11月26日 GMT+8 22:06)
7 min read
原文: arXiv
Source: arXiv - 2511.21414v1
概览
本文提出了 浅层通用多项式网络 (Shallow Universal Polynomial Networks, SUPNs)——一种新型神经网络模型,它用一个可学习的多元多项式层取代深层隐藏层堆叠,随后接一个常规输出层。通过将深度网络的表达能力与多项式近似的紧凑性相结合,SUPNs 在使用极少可训练参数的情况下实现了相当(甚至更好)的精度,这转化为更快的训练、更易调试以及更可预测的泛化性能。
主要贡献
- SUPN 架构:提出一种浅层网络,其中隐藏表示为 单个 多项式层,系数可学习,省去了大量深层隐藏层的需求。
- 理论保证:证明 SUPN 的收敛速率与相同次数的最优多项式近似相同,并给出闭式、准最优的系数公式。
- 参数效率:通过理论分析和实证验证,展示 SUPN 所需参数远少于深度神经网络 (DNN) 或 Kolmogorov‑Arnold 网络 (KAN),即可达到目标误差。
- 广泛的实证研究:在 1‑D、2‑D 和 10‑D 回归任务上基准测试 >13 000 种模型,比较 SUPN 与 DNN、KAN 以及纯多项式投影的表现。
- 对非平滑函数的鲁棒性:发现 SUPN 在具有拐点或不连续性的函数上也能超越标准多项式投影,而这类情形通常是经典谱方法的弱点。
方法论
- 多项式隐藏层
- 输入向量 x ∈ ℝⁿ 被映射为至多项式次数 d 的单项式向量(例如所有项 x₁、x₁x₂、x₁²,……)。
- 每个单项式乘以一个可学习的系数;系数集合构成权重矩阵 W,通过梯度下降进行训练。
- 输出层
- 多项式特征向量被送入标准线性(或浅层非线性)输出层,产生最终预测。
- 训练协议
- SUPN 使用与 DNN 常用的优化器和损失函数相同(如 Adam + MSE)进行训练。
- 由于隐藏层浅,反向传播开销小,损失景观也不易出现大量伪局部极小点。
- 理论分析
- 作者利用经典近似理论(Jackson‑型不等式)将 SUPN 误差上界于次数 d 的最佳多项式误差。
- 通过在训练数据上求解最小二乘问题得到准最优系数,这些系数可作为梯度优化的良好初始化。
结果与发现
| 设置 | 参数量 (≈) | 平均测试误差 | 变异性 (Std.) |
|---|---|---|---|
| 1‑D 平滑函数 | SUPN: 150 | 1.2 e‑4 | 0.3 e‑4 |
| 1‑D 平滑函数 | DNN(3 层,1500) | 9.8 e‑4 | 2.1 e‑4 |
| 2‑D 非平滑(拐点) | SUPN: 800 | 3.5 e‑3 | 0.4 e‑3 |
| 2‑D 非平滑(拐点) | KAN: 8000 | 1.2 e‑2 | 1.0 e‑2 |
| 10‑D 类多项式 | SUPN: 2 500 | 5.1 e‑3 | 0.6 e‑3 |
| 10‑D 类多项式 | DNN(5 层,25 000) | 7.8 e‑3 | 1.4 e‑3 |
关键要点
- 误差 vs. 参数数量:在相同的可训练权重预算下,SUPN 始终实现更低的近似误差——常常比 DNN/KAN 好一个数量级。
- 稳定性:不同随机种子下的标准差对 SUPN 明显更小,表明其对初始化的敏感度较低。
- 非平滑性能:即使目标函数包含不连续点,SUPN 仍能超越纯多项式投影,说明学习到的系数能够捕捉局部不规则性。
实际意义
- 更快的原型开发:由于参数极少,SUPN 在低维问题上可在 CPU 上几秒钟完成训练,适合快速实验或边缘设备部署。
- 可解释性:隐藏层是显式多项式,开发者可以检查系数大小以理解特征交互——这在深度网络中往往是不可见的。
- 降低过拟合:紧凑的参数空间本身充当正则化器,在数据稀缺的场景(如科学仿真、传感器校准)尤为有价值。
- 混合流水线:SUPN 可直接替代现有流水线中的特征提取块(例如在下游分类器之前),提供轻量却富表达的表示。
- 兼容现有工具链:实现仅需标准张量操作(单项式展开、矩阵乘法),可基于 PyTorch、TensorFlow 或 JAX 构建,无需自定义内核。
局限性与未来工作
- 向极高维度的可扩展性:单项式数量随输入维度和多项式次数呈组合爆炸式增长,超过约 10‑15 维后若不采用稀疏或低秩技巧会变得不可行。
- 多项式基的选择:本文使用全次数单项式;探索正交基(如 Legendre、Chebyshev)或自适应基选择可能进一步提升条件数和精度。
- 向分类任务的扩展:实验聚焦回归;将 SUPN 应用于带 softmax 输出的分类任务仍是待解问题。
- 与现代正则化器的结合:研究 dropout、权重衰减或谱正则化与多项式层的交互,可能产生更鲁棒的模型。
结论:SUPN 在深度网络的强大表达力与经典多项式近似的简洁优雅之间提供了一个有吸引力的折中,以极少的参数实现高精度,是需要快速、可解释且可靠模型的开发者的理想选择。
作者
- Zachary Morrow
- Michael Penwarden
- Brian Chen
- Aurya Javeed
- Akil Narayan
- John D. Jakeman
论文信息
- arXiv ID: 2511.21414v1
- 分类: cs.LG, math.NA
- 发布日期: 2025 年 11 月 26 日
- PDF: Download PDF