【论文】Free‑RBF‑KAN:Kolmogorov‑Arnold 网络与自适应径向基函数用于高效函数学习

发布: (2026年1月13日 GMT+8 01:45)
8 min read
原文: arXiv

Source: arXiv - 2601.07760v1

Overview

本文介绍了 Free‑RBF‑KAN,这是一种新的 Kolmogorov‑Arnold 网络(KAN)变体,它用 自适应径向基函数 (RBF) 取代了传统的 B‑样条基函数。通过让 RBF 的中心、宽度和光滑度参数直接从数据中学习,作者在保持经典 KAN 相同逼近能力的同时,显著缩短了训练和推理时间——这对构建高性能、低延迟机器学习模型的开发者具有很大吸引力。

关键贡献

  • 自适应 RBF 网格:与固定 RBF 位置不同,网络学习一个“自由”网格的 RBF 中心和尺度,使基函数与数据的激活模式对齐。
  • 可训练平滑度参数:将平滑度视为核超参数,并与权重一起联合优化,消除手动调节的需求。
  • RBF‑KAN 的通用性证明:作者扩展了 KAN 的理论基础,证明任意连续多变量函数都可以用所提出的 RBF 形式任意逼近。
  • 效率提升:实证基准显示,与基于 B‑样条的 KAN 相比,前向/后向传播更快,且没有额外的内存开销。
  • 广泛实验验证:实验涵盖多尺度函数拟合、物理信息神经网络(PINNs)以及学习 PDE 解算子,验证了准确性和速度的双重优势。

方法论

  1. 网络架构 – KAN 将多元函数分解为一组单变量“内部”函数之和,随后再通过一个多元“外部”函数。Free‑RBF‑KAN 用 加权的高斯 RBF 和 替代每个内部单变量函数:

    [ f_i(x) = \sum_{k=1}^{K} w_{ik},\phi\bigl(\alpha_{ik}(x - c_{ik})\bigr) ]

    其中 (c_{ik})(中心)、(\alpha_{ik})(逆宽度)以及 全局平滑标量 (\beta) 均为可学习参数。

  2. 自适应网格学习 – 在反向传播过程中,梯度不仅流向线性权重 (w_{ik}),还会流向中心 (c_{ik}) 和尺度 (\alpha_{ik})。这使得基函数能够“变形”以匹配数据分布,实质上提供了一个数据驱动的分辨率网格。

  3. 平滑度作为核参数 – 高斯核被修改为 (\phi_{\beta}(z)=\exp(-\beta z^2))。标量 (\beta) 与其他参数一起进行优化,使网络能够自动在平滑度与锐利度之间进行权衡。

  4. 训练流程 – 作者使用标准的随机梯度下降(Adam)并加入权重衰减。无需特殊正则化项;自适应参数自然受到损失梯度的约束。

  5. 理论保证 – 通过构造稠密的 RBF 集合并利用 Kolmogorov‑Arnold 表示定理,作者证明 Free‑RBF‑KAN 能在紧致域上以任意精度逼近任何连续函数。

结果与发现

任务指标(越低越好)B‑spline KANFree‑RBF‑KAN加速比(训练 / 推理)
多尺度 1‑D 函数MSE1.2e‑41.1e‑41.8× / 2.1×
Burgers 方程的 PINN相对 L2 误差3.5e‑33.3e‑31.6× / 1.9×
PDE 操作符(Navier‑Stokes)MAE4.8e‑34.7e‑31.5× / 1.7×
  • 准确性:Free‑RBF‑KAN 在所有基准测试中与原始 KAN 相匹配或略有提升,证实自适应 RBF 消除了早期 RBF‑KAN 试验中观察到的性能差距。
  • 效率:通过消除 B‑splines 所需的昂贵 De Boor 递归,新模型降低了 FLOPs 和内存访问,使训练和推理速度大约提升 1.5–2×
  • 可扩展性:在高达 64 维输入空间的实验中表现出稳定收敛,表明自适应网格不会出现组合爆炸。

实际意义

  • 更快的原型开发 – 开发者可以通过一次代码替换,将 B‑spline KAN 换成 Free‑RBF‑KAN,即可立即看到速度提升,这在边缘设备或实时推理场景中尤为有价值。
  • 面向科学机器学习的自适应分辨率 – 在物理驱动的模型中,解的特征(例如冲击波)是局部的,可学习的 RBF 网格会自动在需要的地方集中基函数,从而减少手动网格细化的工作。
  • 低内存部署 – 由于 RBF 参数高效(无需结向量),模型大小与传统 KAN 相当,使该方法适用于移动端或嵌入式 AI 系统。
  • 即插即用,兼容现有框架 – 作者提供了 PyTorch 实现,可直接集成到标准的 nn.Module 流程中,这意味着现有的训练循环、优化器和混合精度工具可开箱即用。

限制与未来工作

  • 超参数敏感性 – 虽然平滑性是学习得到的,但仍需选择每个内部函数的初始 RBF 数量;数量过少会限制表达能力,数量过多会增加训练时间。
  • 梯度稳定性 – 同时学习中心和宽度可能导致偶尔的 “塌陷”,即多个 RBF 收敛到相同位置;作者通过小学习率调度来缓解,但更稳健的正则化器可能会有帮助。
  • 向非高斯核的扩展 – 本文聚焦于高斯 RBF;探索其他核(例如 Matérn、紧支撑核)可能进一步提升特定领域的性能。
  • 理论紧致性 – 通用性证明保证了极限情况下的近似;对于给定误差容忍度所需 RBF 数量的更紧致界限仍是未解之题。

结论:Free‑RBF‑KAN 提供了一个实用的高性能替代方案,能够以更精简的计算开销实现与传统 KAN 相同的表达能力——这对构建下一代函数逼近模型的开发者而言极具吸引力,无论是科学模拟器还是实时 AI 服务。

作者

  • Shao‑Ting Chiu
  • Siu Wun Cheung
  • Ulisses Braga‑Neto
  • Chak Shing Lee
  • Rui Peng Li

论文信息

  • arXiv ID: 2601.07760v1
  • 分类: cs.LG, math.NA
  • 发布时间: 2026年1月12日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »