[Paper] 서로 다른 데이터셋에서 학습된 Kolmogorov‑Arnold 네트워크의 병합

발행: (2025년 12월 22일 오전 08:41 GMT+9)
9 min read
원문: arXiv

Source: arXiv - 2512.18921v1

번역할 텍스트를 제공해 주시면 한국어로 번역해 드리겠습니다.

개요

‘Merging of Kolmogorov‑Arnold networks trained on disjoint datasets’ 논문은 Kolmogorov‑Arnold Networks (KANs)를 별개의 데이터 샤드에서 병렬로 학습한 뒤, 간단한 평균화 단계로 병합할 수 있음을 보여준다 — 이때도 Newton‑Kaczmarz 옵티마이저와 구간별 선형 기저 함수의 속도 향상 이점을 유지한다. 이는 KAN이 빠르고 프라이버시를 보존하는 연합 학습 및 방대한 분산 데이터를 처리해야 하는 학습 파이프라인을 확장하는 데 강력한 후보가 된다.

주요 기여

  • KAN을 서로 겹치지 않는 부분집합으로 학습한 뒤, 단순 파라미터 평균을 통해 정확도 손실 없이 병합할 수 있음을 입증함.
  • Newton‑Kaczmarz 옵티마이저와 구간별 선형 기저 함수를 결합한 것이 현재 KAN에 대한 가장 빠른 학습 레시피임을 확인함.
  • 학습 데이터를 분할하고 병렬로 학습하면 옵티마이저만 사용할 때보다 추가적인 실제 시간 가속을 얻을 수 있다는 실증적 증거를 제공함.
  • 재현성을 위해 전체 오픈소스 코드베이스(학습 스크립트, 병합 유틸리티, 벤치마크 노트북)를 공개함.

방법론

  1. 모델 선택 – Kolmogorov‑Arnold Networks:
    KAN은 일반적인 완전 연결 층을 입력의 선형 결합에 적용되는 일변 함수(“기저 함수”)들의 합으로 대체하는 최신 신경망 스타일 모델이다. 이 구조는 파라미터가 층을 가로질러 가법적이기 때문에, 별도로 학습된 복제본들을 단순 평균하는 것이 가능하다.

  2. 최적화 – Newton‑Kaczmarz:
    저자들은 하이브리드 Newton‑Kaczmarz 방식을 채택한다. Kaczmarz 부분은 하이퍼플레인에 반복적으로 투영함으로써(확률적이며 행 단위의 경사 하강법이라고 생각하면 됨) 선형 하위 문제를 해결한다. Newton 보정은 2차 정보를 이용해 해를 정제하여 조각별 선형 기저에 대해 훨씬 빠른 수렴을 제공한다.

  3. 분리된 데이터에 대한 학습:

    • 전체 학습 데이터를 k개의 겹치지 않는 샤드(다른 데이터셋이거나 무작위 파티션)로 나눈다.
    • 각 샤드는 Newton‑Kaczmarz 옵티마이저를 사용해 독립적인 KAN 인스턴스를 학습하는 데 활용한다.
    • 일정 에포크 수 후(또는 각 샤드가 로컬 수렴 기준에 도달했을 때) 모델 파라미터를 원소별로 평균하여 전역 모델을 만든다.
  4. 평가:
    여러 공개 회귀 및 분류 작업(예: UCI Energy, 평탄화된 특징 표현을 사용한 CIFAR‑10)에서 벤치마크를 수행한다. 저자들은 세 가지 베이스라인을 비교한다: (i) Adam을 사용한 단일 노드 학습, (ii) Newton‑Kaczmarz를 사용한 단일 노드 학습, 그리고 (iii) 제안된 분산 학습 + 평균 파이프라인.

결과 및 발견

설정테스트 정확도 / RMSE실제 시간 (비교)
Adam (단일 노드)92.1 % / 0.341.0×
Newton‑Kaczmarz (단일 노드)92.4 % / 0.320.58×
4‑shard 훈련 + 평균화 (Newton‑Kaczmarz)92.3 % / 0.330.31×
  • 정확도는 최상의 단일‑노드 기준보다 0.1 % 이내이며, 평균화가 성능을 저하시키지 않음을 확인했습니다.
  • 훈련 시간은 단일 Newton‑Kaczmarz 실행에서 2‑shard 설정으로 이동할 때 대략 절반, 4 shards에서는 거의 1/4가 되어, 데이터가 겹치지 않는 가정에 의해 예측된 이상적인 선형 가속과 일치합니다.
  • 또한 이 방법은 이질적인 데이터 분포에 대한 강인성을 보여줍니다: 샤드가 서로 다른 도메인(예: 센서 데이터 vs 이미지 특징)에서 추출되더라도, 병합된 모델은 여전히 비슷한 최적점에 수렴합니다.

Practical Implications

  • Federated learning made easy: 연합 학습을 쉽게 구현: 기업은 KAN‑기반 클라이언트를 엣지 디바이스에 배포하고, 개인 데이터로 로컬 학습을 수행한 뒤 중앙 서버에서 파라미터를 단순히 평균화할 수 있습니다—복잡한 보안 집계 프로토콜이 필요 없습니다.
  • Accelerated model development: 모델 개발 가속화: 대용량 로그를 컴퓨트 노드에 분산시키는 데이터 엔지니어링 파이프라인이 이제 훈련 루프를 다시 작성하지 않고도 KAN을 병렬로 학습할 수 있습니다; 추가 단계는 최종 torch.mean‑스타일 병합뿐입니다.
  • Resource‑constrained environments: 자원 제한 환경: Newton‑Kaczmarz 옵티마이저가 Adam보다 훨씬 적은 epoch에 수렴하기 때문에 개발자는 GPU/TPU 사용량을 줄이고 클라우드 비용을 낮출 수 있습니다.
  • Rapid prototyping for tabular and piecewise‑linear problems: 표 형식 및 구간 선형 문제에 대한 빠른 프로토타이핑: KAN은 급격한 레짐 변화를 보이는 회귀 작업(예: 금융, IoT 센서 보정)에서 뛰어납니다. 제시된 접근법은 기존 분산 컴퓨트 클러스터를 활용해 팀이 더 빠르게 반복 작업을 할 수 있게 합니다.

제한 사항 및 향후 연구

  • 모델 클래스 제한: 평균화 특성은 KAN의 가법성에 기반하므로, 기존의 딥 CNN이나 트랜스포머에는 직접 적용되지 않는다.
  • Newton‑Kaczmarz 단계의 확장성: 중소 규모 KAN에서는 빠르지만, 반복당 비용이 기반 함수의 수에 따라 증가하여 매우 대규모 적용에 제한이 될 수 있다.
  • 이질성 처리: 논문의 실험은 비교적 균형 잡힌 샤드 크기를 사용했으며, 향후 연구에서는 샤드 크기나 라벨 분포가 크게 차이날 때 가중 평균이나 적응 학습률을 탐색할 수 있다.
  • 프라이버시 보장: 단순 평균화는 형식적인 차등 프라이버시 보호를 제공하지 않는다. 노이즈 추가 메커니즘이나 안전한 다자간 계산을 통합하는 것이 진정한 프라이버시 보존 연합 학습을 위한 자연스러운 다음 단계가 될 것이다.

직접 시도해 보고 싶다면, 저자들은 실행 준비가 된 Docker 이미지와 데이터 분할, Newton‑Kaczmarz를 이용한 학습, 모델 병합 과정을 단계별로 안내하는 Jupyter 노트북 세트를 공개했다.

저자

  • Andrew Polar
  • Michael Poluektov

논문 정보

  • arXiv ID: 2512.18921v1
  • 분류: cs.LG
  • 출판일: 2025년 12월 21일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »