【论文】Free‑RBF‑KAN:Kolmogorov‑Arnold 网络与自适应径向基函数用于高效函数学习
Source: arXiv - 2601.07760v1
Overview
本文介绍了 Free‑RBF‑KAN,这是一种新的 Kolmogorov‑Arnold 网络(KAN)变体,它用 自适应径向基函数 (RBF) 取代了传统的 B‑样条基函数。通过让 RBF 的中心、宽度和光滑度参数直接从数据中学习,作者在保持经典 KAN 相同逼近能力的同时,显著缩短了训练和推理时间——这对构建高性能、低延迟机器学习模型的开发者具有很大吸引力。
关键贡献
- 自适应 RBF 网格:与固定 RBF 位置不同,网络学习一个“自由”网格的 RBF 中心和尺度,使基函数与数据的激活模式对齐。
- 可训练平滑度参数:将平滑度视为核超参数,并与权重一起联合优化,消除手动调节的需求。
- RBF‑KAN 的通用性证明:作者扩展了 KAN 的理论基础,证明任意连续多变量函数都可以用所提出的 RBF 形式任意逼近。
- 效率提升:实证基准显示,与基于 B‑样条的 KAN 相比,前向/后向传播更快,且没有额外的内存开销。
- 广泛实验验证:实验涵盖多尺度函数拟合、物理信息神经网络(PINNs)以及学习 PDE 解算子,验证了准确性和速度的双重优势。
方法论
-
网络架构 – KAN 将多元函数分解为一组单变量“内部”函数之和,随后再通过一个多元“外部”函数。Free‑RBF‑KAN 用 加权的高斯 RBF 和 替代每个内部单变量函数:
[ f_i(x) = \sum_{k=1}^{K} w_{ik},\phi\bigl(\alpha_{ik}(x - c_{ik})\bigr) ]
其中 (c_{ik})(中心)、(\alpha_{ik})(逆宽度)以及 全局平滑标量 (\beta) 均为可学习参数。
-
自适应网格学习 – 在反向传播过程中,梯度不仅流向线性权重 (w_{ik}),还会流向中心 (c_{ik}) 和尺度 (\alpha_{ik})。这使得基函数能够“变形”以匹配数据分布,实质上提供了一个数据驱动的分辨率网格。
-
平滑度作为核参数 – 高斯核被修改为 (\phi_{\beta}(z)=\exp(-\beta z^2))。标量 (\beta) 与其他参数一起进行优化,使网络能够自动在平滑度与锐利度之间进行权衡。
-
训练流程 – 作者使用标准的随机梯度下降(Adam)并加入权重衰减。无需特殊正则化项;自适应参数自然受到损失梯度的约束。
-
理论保证 – 通过构造稠密的 RBF 集合并利用 Kolmogorov‑Arnold 表示定理,作者证明 Free‑RBF‑KAN 能在紧致域上以任意精度逼近任何连续函数。
结果与发现
| 任务 | 指标(越低越好) | B‑spline KAN | Free‑RBF‑KAN | 加速比(训练 / 推理) |
|---|---|---|---|---|
| 多尺度 1‑D 函数 | MSE | 1.2e‑4 | 1.1e‑4 | 1.8× / 2.1× |
| Burgers 方程的 PINN | 相对 L2 误差 | 3.5e‑3 | 3.3e‑3 | 1.6× / 1.9× |
| PDE 操作符(Navier‑Stokes) | MAE | 4.8e‑3 | 4.7e‑3 | 1.5× / 1.7× |
- 准确性:Free‑RBF‑KAN 在所有基准测试中与原始 KAN 相匹配或略有提升,证实自适应 RBF 消除了早期 RBF‑KAN 试验中观察到的性能差距。
- 效率:通过消除 B‑splines 所需的昂贵 De Boor 递归,新模型降低了 FLOPs 和内存访问,使训练和推理速度大约提升 1.5–2×。
- 可扩展性:在高达 64 维输入空间的实验中表现出稳定收敛,表明自适应网格不会出现组合爆炸。
实际意义
- 更快的原型开发 – 开发者可以通过一次代码替换,将 B‑spline KAN 换成 Free‑RBF‑KAN,即可立即看到速度提升,这在边缘设备或实时推理场景中尤为有价值。
- 面向科学机器学习的自适应分辨率 – 在物理驱动的模型中,解的特征(例如冲击波)是局部的,可学习的 RBF 网格会自动在需要的地方集中基函数,从而减少手动网格细化的工作。
- 低内存部署 – 由于 RBF 参数高效(无需结向量),模型大小与传统 KAN 相当,使该方法适用于移动端或嵌入式 AI 系统。
- 即插即用,兼容现有框架 – 作者提供了 PyTorch 实现,可直接集成到标准的
nn.Module流程中,这意味着现有的训练循环、优化器和混合精度工具可开箱即用。
限制与未来工作
- 超参数敏感性 – 虽然平滑性是学习得到的,但仍需选择每个内部函数的初始 RBF 数量;数量过少会限制表达能力,数量过多会增加训练时间。
- 梯度稳定性 – 同时学习中心和宽度可能导致偶尔的 “塌陷”,即多个 RBF 收敛到相同位置;作者通过小学习率调度来缓解,但更稳健的正则化器可能会有帮助。
- 向非高斯核的扩展 – 本文聚焦于高斯 RBF;探索其他核(例如 Matérn、紧支撑核)可能进一步提升特定领域的性能。
- 理论紧致性 – 通用性证明保证了极限情况下的近似;对于给定误差容忍度所需 RBF 数量的更紧致界限仍是未解之题。
结论:Free‑RBF‑KAN 提供了一个实用的高性能替代方案,能够以更精简的计算开销实现与传统 KAN 相同的表达能力——这对构建下一代函数逼近模型的开发者而言极具吸引力,无论是科学模拟器还是实时 AI 服务。
作者
- Shao‑Ting Chiu
- Siu Wun Cheung
- Ulisses Braga‑Neto
- Chak Shing Lee
- Rui Peng Li
论文信息
- arXiv ID: 2601.07760v1
- 分类: cs.LG, math.NA
- 发布时间: 2026年1月12日
- PDF: 下载 PDF