[Paper] Free-RBF-KAN: 효율적인 함수 학습을 위한 적응형 Radial Basis Functions를 이용한 Kolmogorov‑Arnold Networks

발행: (2026년 1월 13일 오전 02:45 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2601.07760v1

Overview

이 논문은 Free‑RBF‑KAN이라는 새로운 Kolmogorov‑Arnold Networks (KANs) 변형을 소개합니다. 기존의 B‑spline 기반을 적응형 방사형 기저 함수 (RBFs) 로 교체한 것이 핵심입니다. RBF의 중심, 폭, 그리고 스무스니스 파라미터를 데이터로부터 직접 학습하도록 함으로써, 저자들은 고전적인 KAN과 동일한 근사 능력을 유지하면서도 학습 및 추론 시간을 크게 단축시켰습니다. 이는 고성능·저지연 머신러닝 모델을 구축하려는 모든 사람에게 매력적인 제안이 됩니다.

주요 기여

  • Adaptive RBF Grid: 고정된 RBF 배치와 달리, 네트워크는 “자유로운” RBF 중심 및 스케일 그리드를 학습하여 기반을 데이터의 활성화 패턴에 맞춥니다.
  • Trainable Smoothness Parameter: 매끄러움은 커널 하이퍼파라미터로 취급되어 가중치와 함께 공동 최적화되며, 수동 튜닝이 필요 없게 합니다.
  • Universality Proof for RBF‑KANs: 저자들은 KAN의 이론적 기반을 확장하여, 제안된 RBF 형식을 사용하면 임의의 연속 다변량 함수를 원하는 만큼 정확하게 근사할 수 있음을 보여줍니다.
  • Efficiency Gains: 실증적 벤치마크는 B‑스플라인 기반 KAN에 비해 추가 메모리 오버헤드 없이 더 빠른 순전파/역전파를 보여줍니다.
  • Broad Experimental Validation: 실험은 다중 스케일 함수 피팅, 물리 기반 신경망(PINNs), 그리고 PDE의 해 연산자 학습까지 포괄하며, 정확도와 속도 모두에서 이점을 확인합니다.

Methodology

  1. Network Architecture – KAN은 다변량 함수를 일변량 “내부” 함수들의 합으로 분해하고, 그 뒤에 다변량 “외부” 함수를 적용합니다. Free‑RBF‑KAN은 각 내부 일변량 함수를 가중합된 Gaussian RBF 로 대체합니다:

    [ f_i(x) = \sum_{k=1}^{K} w_{ik},\phi\bigl(\alpha_{ik}(x - c_{ik})\bigr) ]

    여기서 (c_{ik}) (중심), (\alpha_{ik}) (역폭), 그리고 전역 평활도 스칼라 (\beta)는 모두 학습 가능한 파라미터입니다.

  2. Adaptive Grid Learning – 역전파 과정에서 기울기가 선형 가중치 (w_{ik})뿐만 아니라 중심 (c_{ik})와 스케일 (\alpha_{ik})에도 전달됩니다. 이를 통해 기저 함수가 데이터 분포에 맞게 “형태를 변형”시켜, 사실상 데이터‑구동형 해상도 그리드를 제공합니다.

  3. Smoothness as a Kernel Parameter – Gaussian 커널을 (\phi_{\beta}(z)=\exp(-\beta z^2)) 로 수정합니다. 스칼라 (\beta)는 함께 최적화되어, 네트워크가 평활성 vs. 날카로움 사이를 자동으로 트레이드오프할 수 있게 합니다.

  4. Training Pipeline – 저자들은 표준 확률적 경사 하강법(Adam)과 weight decay를 사용합니다. 별도의 정규화 항은 필요하지 않으며, 적응 파라미터는 손실 기울기에 의해 자연스럽게 제한됩니다.

  5. Theoretical Guarantee – 조밀한 RBF 집합을 구성하고 Kolmogorov‑Arnold 표현 정리를 활용함으로써, Free‑RBF‑KAN이 콤팩트한 영역에서 임의의 연속 함수를 원하는 정밀도로 근사할 수 있음을 증명합니다.

결과 및 발견

TaskMetric (lower is better)B‑spline KANFree‑RBF‑KANSpeedup (train / infer)
Multiscale 1‑D functionMSE1.2e‑41.1e‑41.8× / 2.1×
PINN for Burgers’ equationRelative L2 error3.5e‑33.3e‑31.6× / 1.9×
PDE operator (Navier‑Stokes)MAE4.8e‑34.7e‑31.5× / 1.7×
  • 정확도: Free‑RBF‑KAN은 모든 벤치마크에서 원래 KAN과 일치하거나 약간 개선되며, 적응형 RBF가 이전 RBF‑KAN 시도에서 관찰된 성능 격차를 해소함을 확인한다.
  • 효율성: B‑splines에 필요한 비용이 큰 De Boor 재귀를 제거함으로써, 새로운 모델은 FLOPs와 메모리 트래픽을 모두 감소시켜 훈련 및 추론이 대략 1.5–2× 빠르게 진행된다.
  • 확장성: 64‑차원 입력 공간까지의 실험에서 안정적인 수렴을 보였으며, 이는 적응형 그리드가 조합적으로 폭발하지 않음을 나타낸다.

Practical Implications

  • Faster Prototyping – 개발자는 B‑spline KAN을 Free‑RBF‑KAN으로 코드 한 줄 교체만으로 바꿀 수 있으며, 즉시 속도 향상을 확인할 수 있습니다. 특히 엣지 디바이스나 실시간 추론 시나리오에서 큰 가치를 제공합니다.
  • Adaptive Resolution for Scientific ML – 물리 기반 모델에서 해(solution) 특성(예: 충격파)이 국소화된 경우, 학습 가능한 RBF 그리드가 자동으로 필요한 위치에 기저 함수를 집중시켜 메쉬 세분화의 수동 엔지니어링을 감소시킵니다.
  • Low‑Memory Deployments – RBF는 파라미터 효율성이 높아(노트 벡터가 없으므로) 모델 크기가 기존 KAN과 비슷하게 유지되며, 따라서 모바일이나 임베디드 AI 스택에 적합합니다.
  • Plug‑and‑Play with Existing Frameworks – 저자들은 표준 nn.Module 파이프라인과 통합되는 PyTorch 구현을 제공하므로, 기존 학습 루프, 옵티마이저, 혼합 정밀도 유틸리티를 바로 사용할 수 있습니다.

Limitations & Future Work

  • Hyper‑parameter Sensitivity – While smoothness is learned, the initial number of RBFs per inner function still needs to be chosen; too few can limit expressivity, too many can increase training time.
  • Gradient Stability – Learning centers and widths jointly can lead to occasional “collapse” where multiple RBFs converge to the same location; the authors mitigate this with small learning‑rate schedules but a more robust regularizer could help.
  • Extension to Non‑Gaussian Kernels – The paper focuses on Gaussian RBFs; exploring other kernels (e.g., Matérn, compact‑support) could further improve performance on specific domains.
  • Theoretical Tightness – The universality proof guarantees approximation in the limit; tighter bounds on required RBF count for a given error tolerance remain an open question.

Bottom line: Free‑RBF‑KAN offers a practical, high‑performance alternative to classic KANs, delivering the same expressive power with a leaner computational footprint—an appealing tool for developers building next‑generation function‑approximation models, from scientific simulators to real‑time AI services.

저자

  • Shao‑Ting Chiu
  • Siu Wun Cheung
  • Ulisses Braga‑Neto
  • Chak Shing Lee
  • Rui Peng Li

논문 정보

  • arXiv ID: 2601.07760v1
  • 분류: cs.LG, math.NA
  • 출판일: 2026년 1월 12일
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »

[Paper] Gemini용 프로덕션 준비 프로브 구축

최첨단 language model 능력이 빠르게 향상되고 있습니다. 따라서 점점 더 강력해지는 시스템을 악용하는 악의적인 행위자들에 대한 보다 강력한 mitigations가 필요합니다. Prior w...