[Paper] Free-RBF-KAN: 효율적인 함수 학습을 위한 적응형 Radial Basis Functions를 이용한 Kolmogorov‑Arnold Networks
Source: arXiv - 2601.07760v1
Overview
이 논문은 Free‑RBF‑KAN이라는 새로운 Kolmogorov‑Arnold Networks (KANs) 변형을 소개합니다. 기존의 B‑spline 기반을 적응형 방사형 기저 함수 (RBFs) 로 교체한 것이 핵심입니다. RBF의 중심, 폭, 그리고 스무스니스 파라미터를 데이터로부터 직접 학습하도록 함으로써, 저자들은 고전적인 KAN과 동일한 근사 능력을 유지하면서도 학습 및 추론 시간을 크게 단축시켰습니다. 이는 고성능·저지연 머신러닝 모델을 구축하려는 모든 사람에게 매력적인 제안이 됩니다.
주요 기여
- Adaptive RBF Grid: 고정된 RBF 배치와 달리, 네트워크는 “자유로운” RBF 중심 및 스케일 그리드를 학습하여 기반을 데이터의 활성화 패턴에 맞춥니다.
- Trainable Smoothness Parameter: 매끄러움은 커널 하이퍼파라미터로 취급되어 가중치와 함께 공동 최적화되며, 수동 튜닝이 필요 없게 합니다.
- Universality Proof for RBF‑KANs: 저자들은 KAN의 이론적 기반을 확장하여, 제안된 RBF 형식을 사용하면 임의의 연속 다변량 함수를 원하는 만큼 정확하게 근사할 수 있음을 보여줍니다.
- Efficiency Gains: 실증적 벤치마크는 B‑스플라인 기반 KAN에 비해 추가 메모리 오버헤드 없이 더 빠른 순전파/역전파를 보여줍니다.
- Broad Experimental Validation: 실험은 다중 스케일 함수 피팅, 물리 기반 신경망(PINNs), 그리고 PDE의 해 연산자 학습까지 포괄하며, 정확도와 속도 모두에서 이점을 확인합니다.
Methodology
-
Network Architecture – KAN은 다변량 함수를 일변량 “내부” 함수들의 합으로 분해하고, 그 뒤에 다변량 “외부” 함수를 적용합니다. Free‑RBF‑KAN은 각 내부 일변량 함수를 가중합된 Gaussian RBF 로 대체합니다:
[ f_i(x) = \sum_{k=1}^{K} w_{ik},\phi\bigl(\alpha_{ik}(x - c_{ik})\bigr) ]
여기서 (c_{ik}) (중심), (\alpha_{ik}) (역폭), 그리고 전역 평활도 스칼라 (\beta)는 모두 학습 가능한 파라미터입니다.
-
Adaptive Grid Learning – 역전파 과정에서 기울기가 선형 가중치 (w_{ik})뿐만 아니라 중심 (c_{ik})와 스케일 (\alpha_{ik})에도 전달됩니다. 이를 통해 기저 함수가 데이터 분포에 맞게 “형태를 변형”시켜, 사실상 데이터‑구동형 해상도 그리드를 제공합니다.
-
Smoothness as a Kernel Parameter – Gaussian 커널을 (\phi_{\beta}(z)=\exp(-\beta z^2)) 로 수정합니다. 스칼라 (\beta)는 함께 최적화되어, 네트워크가 평활성 vs. 날카로움 사이를 자동으로 트레이드오프할 수 있게 합니다.
-
Training Pipeline – 저자들은 표준 확률적 경사 하강법(Adam)과 weight decay를 사용합니다. 별도의 정규화 항은 필요하지 않으며, 적응 파라미터는 손실 기울기에 의해 자연스럽게 제한됩니다.
-
Theoretical Guarantee – 조밀한 RBF 집합을 구성하고 Kolmogorov‑Arnold 표현 정리를 활용함으로써, Free‑RBF‑KAN이 콤팩트한 영역에서 임의의 연속 함수를 원하는 정밀도로 근사할 수 있음을 증명합니다.
결과 및 발견
| Task | Metric (lower is better) | B‑spline KAN | Free‑RBF‑KAN | Speedup (train / infer) |
|---|---|---|---|---|
| Multiscale 1‑D function | MSE | 1.2e‑4 | 1.1e‑4 | 1.8× / 2.1× |
| PINN for Burgers’ equation | Relative L2 error | 3.5e‑3 | 3.3e‑3 | 1.6× / 1.9× |
| PDE operator (Navier‑Stokes) | MAE | 4.8e‑3 | 4.7e‑3 | 1.5× / 1.7× |
- 정확도: Free‑RBF‑KAN은 모든 벤치마크에서 원래 KAN과 일치하거나 약간 개선되며, 적응형 RBF가 이전 RBF‑KAN 시도에서 관찰된 성능 격차를 해소함을 확인한다.
- 효율성: B‑splines에 필요한 비용이 큰 De Boor 재귀를 제거함으로써, 새로운 모델은 FLOPs와 메모리 트래픽을 모두 감소시켜 훈련 및 추론이 대략 1.5–2× 빠르게 진행된다.
- 확장성: 64‑차원 입력 공간까지의 실험에서 안정적인 수렴을 보였으며, 이는 적응형 그리드가 조합적으로 폭발하지 않음을 나타낸다.
Practical Implications
- Faster Prototyping – 개발자는 B‑spline KAN을 Free‑RBF‑KAN으로 코드 한 줄 교체만으로 바꿀 수 있으며, 즉시 속도 향상을 확인할 수 있습니다. 특히 엣지 디바이스나 실시간 추론 시나리오에서 큰 가치를 제공합니다.
- Adaptive Resolution for Scientific ML – 물리 기반 모델에서 해(solution) 특성(예: 충격파)이 국소화된 경우, 학습 가능한 RBF 그리드가 자동으로 필요한 위치에 기저 함수를 집중시켜 메쉬 세분화의 수동 엔지니어링을 감소시킵니다.
- Low‑Memory Deployments – RBF는 파라미터 효율성이 높아(노트 벡터가 없으므로) 모델 크기가 기존 KAN과 비슷하게 유지되며, 따라서 모바일이나 임베디드 AI 스택에 적합합니다.
- Plug‑and‑Play with Existing Frameworks – 저자들은 표준
nn.Module파이프라인과 통합되는 PyTorch 구현을 제공하므로, 기존 학습 루프, 옵티마이저, 혼합 정밀도 유틸리티를 바로 사용할 수 있습니다.
Limitations & Future Work
- Hyper‑parameter Sensitivity – While smoothness is learned, the initial number of RBFs per inner function still needs to be chosen; too few can limit expressivity, too many can increase training time.
- Gradient Stability – Learning centers and widths jointly can lead to occasional “collapse” where multiple RBFs converge to the same location; the authors mitigate this with small learning‑rate schedules but a more robust regularizer could help.
- Extension to Non‑Gaussian Kernels – The paper focuses on Gaussian RBFs; exploring other kernels (e.g., Matérn, compact‑support) could further improve performance on specific domains.
- Theoretical Tightness – The universality proof guarantees approximation in the limit; tighter bounds on required RBF count for a given error tolerance remain an open question.
Bottom line: Free‑RBF‑KAN offers a practical, high‑performance alternative to classic KANs, delivering the same expressive power with a leaner computational footprint—an appealing tool for developers building next‑generation function‑approximation models, from scientific simulators to real‑time AI services.
저자
- Shao‑Ting Chiu
- Siu Wun Cheung
- Ulisses Braga‑Neto
- Chak Shing Lee
- Rui Peng Li
논문 정보
- arXiv ID: 2601.07760v1
- 분류: cs.LG, math.NA
- 출판일: 2026년 1월 12일
- PDF: Download PDF