[Paper] 콜모고로프-아놀드 네트워크의 보편성에 대한 필요충분 조건

발행: 2일 전 (2026년 4월 27일 AM 12:31 GMT+9)

10 분 소요

원문: arXiv

Source: arXiv - 2604.23765v1

개요

이 논문은 Kolmogorov‑Arnold Networks (KANs) 가 콤팩트한 영역에서 모든 연속 함수를 근사할 수 있는 시점을 조사합니다. 각 네트워크 엣지에 적용되는 스칼라 함수인 edge functions에 초점을 맞춤으로써, 저자는 보편 근사를 위해 필요한 최소 비선형 요소를 정확히 규명합니다. 이 결과는 KAN에 대한 이론적 보장을 강화하고, 개발자들에게 표현력이 뛰어나면서도 가벼운 KAN 기반 모델을 구축하는 구체적인 지침을 제공합니다.

주요 기여

단일 비선형 edge만으로도 깊은 KAN에 충분 – 에지가 선형이거나 고정된 연속 비선형 함수 σ인 경우, 모든 깊은 KAN은 C(K)에서 조밀합니다.
두 층 KAN은 비다항식 σ가 필요 – 정확히 두 개의 은닉 층을 가진 네트워크는 σ가 다항식이 아닐 때에만 보편성을 가집니다 (iff).
전체 선형 함수군을 작은 선형 집합으로 대체 – 몇 개(최소 다섯 개) 정도의 고정된 선형 함수 집합과 σ만 있으면 깊이에 관계없이 보편성을 보장합니다.
구성 가능한 선형 함수군 – 비선형 σ마다 구체적인 유한 집합 A₍σ₎ of affine maps가 존재하여, KAN이 A₍σ₎ ∪ {σ} 만을 사용해도 보편성을 유지합니다.
스플라인 기반 edge 파라미터화는 보편적 – 최근 스플라인‑edge 공식(Liu et al., 2024)은 스플라인 차수와 매듭 위치를 사전에 고정해도 보편 근사성을 유지합니다.

방법론

이론적 프레임워크 – 분석은 고전적인 Kolmogorov 합성 정리를 기반으로 하며, 이 정리는 모든 다변량 연속 함수가 선형 형태와 결합된 일변량 연속 함수들의 유한 합으로 표현될 수 있음을 나타낸다.
엣지‑함수 분류 – 엣지 함수는 두 가지 범주로 나뉜다: affine(선형 + 바이어스)와 단일 “특수” 연속 함수 σ.
구성적 근사 증명
- 깊은 네트워크의 경우, 저자는 비선형 부분에 σ만을 사용하여 Kolmogorov 표현을 삽입하는 방법을 보여주며, affine 엣지는 필요한 선형 조합을 담당한다.
- 두 층 네트워크의 경우, 다항식 σ는 필요한 풍부함을 생성하지 못하고, 비다항식 σ가 요구되는 기저 함수를 재현할 수 있다.
유한 affine 군 – 소수의 affine 맵의 선형 독립성을 활용함으로써, 논문은 추가적인 모든 affine 함수가 고정된 유한 기저의 선형 결합으로 표현될 수 있음을 증명하여 보편성을 유지한다.
스플라인 엣지 분석 – 스플라인 파라미터화는 특정 σ(구간별 다항식)로 취급된다. 저자는 미리 정해진 노드 순서와 차수에도 불구하고 스플라인 군이 비다항식 조건을 만족하므로 보편성을 보장한다.

결과 및 발견

Setting	Condition on σ	Universality?	Remarks
Deep KAN (≥ 3 은닉층)	σ 비선형(affine가 아닌) (연속적인 비선형 형태 모두)	Yes	하나의 비선형 edge만 있으면 충분하며, 나머지 edge는 순수하게 affine일 수 있다.
Two‑layer KAN	σ 비다항식 (예: ReLU, tanh, spline)	Yes	다항식 σ(이차식 포함)는 밀도를 달성할 수 없다.
Affine edge set	“all affine”를 유한 집합(≥ 5)으로 교체	Yes (적절한 σ와 함께)	표현력을 희생하지 않으면서 설계 공간을 축소한다.
Spline‑edge KAN	고정 차수 및 노드 시퀀스, σ = spline 기저	Yes	Liu 등 의 실증적 성공을 이론적으로 입증한다.

실용적 함의

간소화된 아키텍처 설계 – KAN을 구축할 때 다양한 활성화 함수가 필요하지 않습니다. 연속적인 비선형 σ(예: ReLU, sigmoid, 스플라인)를 선택하고 소수의 고정된 affine 변환과 결합하면 네트워크는 보편성을 가집니다.
파라미터 예산 친화적 모델 – 필요한 affine 맵이 유한 집합에 불과하므로 이러한 선형 변환을 사전 계산하거나 하드코딩할 수 있어 실행 시간 오버헤드와 메모리 사용량을 줄일 수 있습니다.
활성화 선택 가이드 – 얕은(두 층) KAN에서는 다항식 활성화(예: 순수 2차식)를 피하고 비다항식 활성화를 선택하세요. 이는 ReLU 기반 KAN이 실무에서 잘 작동하는 이유를 설명합니다.
스플라인 기반 KAN에 대한 신뢰 – 스플라인 엣지 파라미터화를 사용하는 개발자는 스플라인 차수와 노드 위치를 고정하더라도 견고한 보편 근사 보장을 기대할 수 있어 하이퍼파라미터 튜닝이 간소화됩니다.
하드웨어 가속 가능성 – affine 부분을 작고 알려진 집합으로 제한할 수 있기 때문에 맞춤형 ASIC/FPGA 구현에서 이러한 선형 맵을 캐시하고, 단일 σ의 평가만 가속하면 됩니다(대부분 ReLU나 구간별 선형 스플라인은 이미 지원됨).

Limitations & Future Work

Constructive constants are not quantified – 증명은 근사의 존재를 보장하지만 주어진 오류 허용 범위에 필요한 네트워크 깊이 또는 폭에 대한 명시적 경계를 제공하지 않는다.
Focus on continuous functions – 보편성 결과는 C(K) (콤팩트 집합 위의 연속 함수)에 적용된다. Lᵖ 공간이나 불연속성을 가진 함수(예: 분류 경계)로 분석을 확장하는 것은 아직 미해결이다.
Empirical validation – 이론적 주장은 견고하지만, 다양한 σ 선택을 가진 얕은 KAN과 깊은 KAN을 비교하는 체계적인 실험은 결과를 실용적인 설계 규칙으로 전환하는 데 도움이 될 것이다.
Optimization landscape – 논문은 제한된 엣지 함수 집합이 훈련 역학, 수렴 속도, 혹은 지역 최소점에 대한 민감도에 어떻게 영향을 미치는지 다루지 않는다.
Extension to stochastic or adaptive σ – 학습 가능한 σ(예: 작은 신경 서브‑모듈)가 필요한 선형 집합을 더 줄이거나 샘플 효율성을 향상시킬 수 있는지 조사하는 것은 유망한 방향이다.

Bottom line for developers: Kolmogorov‑Arnold 네트워크를 실험하고 있다면, 비선형 활성화 함수(예: ReLU, tanh, 스플라인 등) 아무거나 선택하고, 소수의 고정 선형 맵을 추가하면 이론적으로 보장된 보편 근사기가 된다—복잡한 활성화 라이브러리나 거대한 은닉‑층 설계가 필요 없다. 이 통찰은 모델 프로토타이핑을 간소화하고 메모리 사용을 줄이며 효율적인 하드웨어 구현의 길을 열어준다.

저자

Vugar Ismailov

논문 정보

arXiv ID: 2604.23765v1
분류: cs.LG, cs.NE, math.FA
출판일: 2026년 4월 26일
PDF: PDF 다운로드

[Paper] 콜모고로프-아놀드 네트워크의 보편성에 대한 필요충분 조건

개요

주요 기여

방법론

결과 및 발견

실용적 함의

Limitations & Future Work

저자

논문 정보

관련 글

[Paper] 재귀적 다중 에이전트 시스템

[Paper] 모델은 감독에 얼마나 빨리 전념해야 할까? Tsallis Loss Continuum에서 추론 모델 훈련

[Paper] Teacher Forcing as Generalized Bayes: 최적화 기하학 불일치 in Switching Surrogates for Chaotic Dynamics

[Paper] 자연어 의미론을 위한 Functional Geometric Algebra