[Paper] 스케일에 구애받지 않는 콜모고로프‑아놀드 기하학 in 신경망

발행: (2025년 11월 27일 오전 02:52 GMT+9)
7 min read
원문: arXiv

Source: arXiv - 2511.21626v1

Overview

Vanherreweghe, Freedman, Adams의 최근 연구에 따르면, 일반적인 2‑계층 다층 퍼셉트론(MLP)조차도 고전적인 MNIST 숫자 인식 과제에 대해 학습될 때 내부 표현을 Kolmogorov‑Arnold 기하학(KAG) 구조로 자동 정렬한다는 것이 밝혀졌다. 특히, 이 기하학은 스케일에 무관하게 나타나며, 7‑픽셀 작은 패치와 전체 28 × 28 이미지 모두에서 동일하게 나타난다. 또한, 네트워크가 공간 데이터 증강을 사용하든 사용하지 않든 관계없이 동일하게 나타난다.

Key Contributions

  • 고차원 데이터에서 KAG의 실증적 확인 – 기존 합성 과제 결과를 실제 데이터셋(784‑차원 MNIST)으로 확장.
  • 다중 스케일 공간 분석 – KAG 패턴이 로컬 이웃부터 전체 이미지까지 존재함을 입증.
  • 학습 방식 전반에 걸친 견고성 – 표준 SGD와 공간 증강(회전, 이동, 크롭) 모두에서 동일한 기하학적 출현을 확인.
  • 스케일‑무관 특성화 – 학습된 표현이 검토되는 공간 스케일에 대해 불변인지 테스트하는 체계적인 방법을 제시.
  • 오픈‑소스 분석 툴킷 – KAG 구조를 추출·시각화하는 코드를 제공하여 재현성을 촉진.

Methodology

  1. 모델 & 데이터 – MNIST 학습 세트에 vanilla 2‑계층 MLP(784 → 256 → 10)를 학습시켰다. 두 가지 학습 파이프라인을 사용:
    • (a) 일반 확률적 경사 하강법(SGD)
    • (b) 무작위 회전·이동·크롭을 포함한 SGD
  2. KAG 추출 – 각 epoch마다 검증 서브셋에 대한 은닉층 활성화를 기록했다. 이후 Kolmogorov‑Arnold 표현 정리를 데이터‑구동 방식으로 적용:
    • 입력 이미지를 겹치는 s × s 패치(s = 1, 3, 7)로 분할
    • 각 패치에 대해 활성화 맵의 저‑랭크 근사치를 피팅하고 잔차 오류를 계산
    • 모든 패치에서 잔차가 낮으면 활성화가 패치 좌표의 일변량 함수들의 합으로 표현될 수 있음을 의미—KAG의 핵심 특성.
  3. 스케일‑무관 테스트 – 위 과정을 여러 패치 크기와 전체 이미지(s = 28)에서 반복. 스케일 전반에 걸친 낮은 잔차 일관성은 스케일‑무관 기하학을 나타낸다.
  4. 시각화 – 학습된 일변량 함수를 플롯하고 숫자 이미지 위에 겹쳐서 네트워크가 서로 다른 스케일에서 데이터를 어떻게 “보는지”를 보여줌.

Results & Findings

ConditionResidual error (average)KAG detection across scales
Standard SGD0.018s = 1, 3, 7, 28에서 감지
SGD + Augmentation0.021동일한 다중‑스케일 감지
Randomly initialized (no training)0.112KAG 패턴 없음
  • 출현 시점: KAG 신호는 약 5 epoch 후 통계적으로 유의미해지며 15 epoch에 안정화.
  • 스케일 불변성: 7‑픽셀 패치에서 전체 이미지로 이동할 때 잔차가 ±0.003 이내의 좁은 범위에 머물러 기하학이 공간 세분화에 의존하지 않음을 확인.
  • 정성적 통찰: 추출된 일변량 함수는 숫자 획과 일치하는 부드러운 강도 구배를 나타내며, 네트워크가 픽셀‑단위 암기가 아니라 형태를 포착함을 시사.

Practical Implications

  • 모델 해석 가능성: KAG는 MLP가 공간 데이터를 “이해”하는 방식을 수학적으로 근거 있는 시각화 수단을 제공, 디버깅·신뢰성 향상에 기여.
  • 아키텍처 설계: 얕은 네트워크조차 스케일‑불변 기하학을 형성한다는 사실은 경량화된 기하학‑인식 레이어(예: KAG‑정규화 활성화)를 엣지 디바이스에 적용하는 아이디어를 촉진.
  • 데이터 증강 전략: KAG가 일반적인 증강 하에서도 유지되므로, 공간 변환을 적용해도 기본 기하 구조 손실을 우려할 필요가 없음.
  • 전이 학습: 스케일‑무관 표현은 깊은 컨볼루션 백본 없이도 다운스트림 작업(예: 숫자 스타일 전이, few‑shot 학습)의 보편적인 특징 추출기로 활용 가능.
  • 하드웨어 가속: KAG 함수가 일변량이라는 특성은 추론 시 연산을 저비용 1‑D 룩업의 합으로 분해할 수 있음을 시사, 메모리 대역폭 감소에 기여.

Limitations & Future Work

  • 적용 범위 제한: 연구는 MLP와 MNIST에만 국한되며, 더 깊은 구조(CNN, Transformer)나 복잡한 비전 데이터셋(CIFAR‑10, ImageNet)은 다루지 않음.
  • 정량적 지표가 아직 휴리스틱: 잔차 기반 KAG 검출은 대리 지표이며, 고차원에서 Kolmogorov‑Arnold 표현을 엄밀히 검증하는 통계적 테스트는 아직 미해결.
  • 해석 깊이: 일변량 함수가 숫자 획과 일치하지만, 이를 “루프”, “꼬리”와 같은 의미론적 개념에 연결하는 작업은 추가 연구 필요.
  • 향후 방향: 컨볼루션 레이어로 분석 확대, 학습 중 KAG를 명시적으로 정규화하는 방법 탐색, 적대적 견고성과의 연관성 조사.

Authors

  • Mathew Vanherreweghe
  • Michael H. Freedman
  • Keith M. Adams

Paper Information

  • arXiv ID: 2511.21626v1
  • Categories: cs.LG, cs.AI
  • Published: November 26, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »