[Paper] Kolmogorov‑Arnold 网络通用性的必要且充分条件

发布: 2天前 (2026年4月26日 GMT+8 23:31)

9 分钟阅读

原文: arXiv

Source: arXiv - 2604.23765v1

概述

本文研究 Kolmogorov‑Arnold 网络 (KAN) 何时能够在紧致域上逼近任意连续函数。通过聚焦于 边缘函数（即沿每条网络边缘应用的标量函数），作者 pinpoint（定位）了实现通用逼近所需的最小非线性要素。研究结果收紧了 KAN 的理论保证，并为开发者提供了构建既具表达力又轻量化的 KAN‑基模型的具体指导。

关键贡献

单个非仿射边即可实现深层 KAN – 任意深层 KAN，只要其边要么是仿射的，要么是一个固定的连续非仿射函数 σ，即可在 C(K) 中稠密。
两层 KAN 需要非多项式 σ – 对于恰好有两层隐藏层的网络，通用性成立的充分必要条件是 σ 不是多项式。
有限仿射集合取代整个仿射族 – 只需一个小的、固定的仿射函数集合（最少可只有五个），再加上 σ，就能保证通用性，且与网络深度无关。
构造性的仿射族 – 对每个非仿射 σ，都存在一个具体的有限集合 A₍σ₎ （由仿射映射组成），使得仅使用 A₍σ₎ ∪ {σ} 中的函数的 KAN 仍然具备通用逼近能力。
基于样条的边参数化是通用的 – 最近的样条边形式化（Liu 等，2024）即使在事先固定样条阶数和节点位置的情况下，也保持了通用逼近性质。

方法论

理论框架 – 本分析基于经典的 Kolmogorov 超位置定理，该定理指出任意多变量连续函数都可以表示为若干个单变量连续函数与线性形式的组合的有限和。
边缘函数分类 – 边缘函数被划分为两类：仿射（线性 + 偏置）和单一的“特殊”连续函数 σ。
构造性逼近证明
- 对于深层网络，作者展示了如何仅使用 σ 作为非线性部分来嵌入 Kolmogorov 表示，而仿射边缘负责所需的线性组合。
- 对于两层网络，多项式 σ 无法产生所需的丰富性；而非多项式 σ 能够复现所需的基函数。
有限仿射族 – 通过利用一小组仿射映射的线性无关性，论文证明任意额外的仿射函数都可以表示为固定有限基的线性组合，从而保持通用性。
样条边缘分析 – 将样条参数化视为特定的 σ（分段多项式）。作者表明，即使在预先确定的节点序列和阶数下，样条族仍满足非多项式条件，从而保证通用性。

结果与发现

设置	σ 的条件	通用性？	备注
Deep KAN（≥ 3 层隐藏层）	σ 非仿射（任意连续的非线性形状）	是	一个非仿射边即可；其余边可以全部是仿射的。
两层 KAN	σ 非多项式（例如 ReLU、tanh、样条）	是	多项式 σ（包括二次）无法实现密度逼近。
仿射边集合	将“全部仿射”替换为有限集合（≥ 5）	是（配合任意合适的 σ）	在不牺牲表达能力的前提下，缩小设计空间。
样条边 KAN	固定次数和节点序列，σ = 样条基函数	是	在理论上证实了 Liu 等人的经验成功。

通俗来说，本文证明只需在边缘集合中加入一个精心挑选的非线性标量函数，就能释放 KAN 的完整逼近能力，其余网络部分可以由一小套预先确定的线性映射构成。

Source: …

实际意义

简化的架构设计 – 在构建 KAN 时，你不需要大量的激活函数。选择任意连续的非仿射 σ（例如 ReLU、sigmoid、样条函数），并与少量固定的仿射变换配对；网络即可实现通用逼近。
参数预算友好的模型 – 由于只需要有限集合的仿射映射，你可以预先计算或硬编码这些线性变换，从而降低运行时开销和内存占用。
激活函数选择指南 – 对于浅层（两层）KAN，避免使用多项式激活函数（如纯二次函数），应选择非多项式函数。这解释了基于 ReLU 的 KAN 在实践中表现良好的原因。
对基于样条的 KAN 的信心 – 使用样条边缘参数化的开发者现在可以依赖坚实的通用逼近保证，即使固定了样条的阶数和节点位置，也能简化超参数调优。
硬件加速的潜力 – 由于仿射部分可以限制在一个小且已知的集合中，定制的 ASIC/FPGA 实现可以缓存这些线性映射，仅需加速单一 σ 的计算（这通常已对 ReLU 或分段线性样条提供支持）。

Limitations & Future Work

构造常数未量化 – 证明保证了近似的存在性，但未给出在给定误差容限下所需网络深度或宽度的显式界限。
聚焦于连续函数 – 泛化性结果适用于 C(K)（紧致集合上的连续函数）。将分析扩展到 Lᵖ 空间或具有不连续性的函数（例如分类边界）仍是未解之题。
实证验证 – 虽然理论主张坚实，但系统性的实验——比较不同 σ 选择下的浅层与深层 KAN——有助于将结果转化为实际的设计规则。
优化景观 – 论文未讨论受限的边缘函数集合如何影响训练动态、收敛速度或对局部最小值的敏感性。
扩展到随机或自适应 σ – 探索可学习的 σ（例如一个小的神经子模块）是否能够进一步减少所需的仿射集合或提升样本效率，是一个有前景的方向。

Bottom line for developers: If you’re experimenting with Kolmogorov‑Arnold Networks, pick any non‑affine activation (ReLU, tanh, a spline, etc.), sprinkle in a handful of fixed linear maps, and you have a theoretically guaranteed universal approximator—no need for elaborate activation libraries or massive hidden‑layer designs. This insight can streamline model prototyping, reduce memory usage, and open the door to efficient hardware implementations.

作者

Vugar Ismailov

论文信息

arXiv ID: 2604.23765v1
分类: cs.LG, cs.NE, math.FA
出版日期: 2026年4月26日
PDF: 下载 PDF

[Paper] Kolmogorov‑Arnold 网络通用性的必要且充分条件

概述

关键贡献

方法论

结果与发现

实际意义

Limitations & Future Work

作者

论文信息

相关文章

[Paper] 递归多智能体系统

[Paper] 模型应多快投入监督？在 Tsallis 损失连续体上训练推理模型

[论文] Teacher Forcing 作为广义贝叶斯：混沌动力学中切换代理的优化几何不匹配

[Paper] 面向自然语言语义的函数式几何代数