[Paper] Kolmogorov-Arnold Network Head 파인튜닝을 통한 버마어 뉴스 분류 향상
발행: (2025년 11월 26일 오후 02:50 GMT+9)
7 min read
원문: arXiv
Source: arXiv - 2511.21081v1
개요
이 논문은 버마어 뉴스 분류에 대해 간단하지만 강력한 트윅을 조사한다: 일반적인 밀집‑층(MLP) 헤드를 Kolmogorov‑Arnold Network (KAN) 헤드로 교체한다. 고정된 임베딩(TF‑IDF, fastText, 혹은 다국어 트랜스포머) 위에 이 분류 레이어만 미세조정함으로써, 저자들은 KAN이 전통적인 MLP와 동등하거나 능가하면서도 종종 더 빠르고 파라미터 효율적임을 보여준다—저자원 언어 프로젝트에 매력적인 제안이다.
주요 기여
- KAN 기반 분류 헤드(FourierKAN, EfficientKAN, FasterKAN)를 저자원 텍스트 분류에 도입.
- 표준 MLP와 KAN 헤드를 네 가지 임베딩 패밀리(TF‑IDF, fastText, mBERT, Distil‑mBERT)에서 벤치마크.
- EfficientKAN + fastText를 사용해 버마어 뉴스 분류에서 최신 F1 점수(0.928) 달성.
- 속도‑정확도 트레이드오프를 입증: FasterKAN은 낮은 지연 시간으로 거의 MLP 수준의 성능 제공.
- 오픈소스 재현 파이프라인을 제공하여 라벨이 제한된 모든 언어에 적용 가능하도록 함.
방법론
- 데이터 및 과제 – 여러 카테고리로 구성된 버마어 뉴스 데이터셋을 학습/검증/테스트 셋으로 분할.
- 임베딩 – 네 가지 사전 계산된 표현 사용:
- 희소 TF‑IDF 벡터
- 버마어 코퍼스에 사전 학습된 dense fastText 단어 평균
- 다국어 BERT(mBERT)와 그 distilled 버전(Distil‑mBERT) – 두 모델 모두 학습 동안 고정.
- 분류 헤드 – 각 임베딩마다 세 가지 KAN 변형을 인스턴스화:
- FourierKAN – 각 뉴런을 푸리에 기저 함수들의 합으로 구성.
- EfficientKAN – 스플라인 기반 기저 함수를 사용해 컴팩트하고 미분 가능한 매핑 제공.
- FasterKAN – 약간의 표현력 손실을 대가로 속도를 높이는 그리드 기반 근사.
기준선 헤드는 ReLU 활성화를 갖는 고전적인 2‑계층 MLP.
- 학습 – 헤드 파라미터만 미세조정(전체 파라미터의 ≈ 1–2 %). Adam 옵티마이저, 검증 F1 기반 조기 종료, 클래스 균형 교차 엔트로피 손실 사용.
- 평가 – 각 헤드‑임베딩 조합에 대해 Macro‑averaged F1, 추론 지연 시간(ms per sample), 파라미터 수를 기록.
결과 및 발견
| 임베딩 | 헤드 | Macro F1 | Params (M) | Inference (ms) |
|---|---|---|---|---|
| fastText | EfficientKAN | 0.928 | 0.12 | 1.8 |
| fastText | FasterKAN | 0.921 | 0.09 | 1.2 |
| fastText | MLP (baseline) | 0.914 | 0.15 | 2.3 |
| mBERT | EfficientKAN | 0.917 | 0.14 | 3.1 |
| mBERT | MLP | 0.915 | 0.16 | 3.4 |
| mBERT | FasterKAN | 0.910 | 0.11 | 2.8 |
| TF‑IDF | EfficientKAN | 0.862 | 0.08 | 1.5 |
| TF‑IDF | MLP | 0.858 | 0.10 | 1.7 |
| Distil‑mBERT | FasterKAN | 0.904 | 0.12 | 2.5 |
- 표현력: KAN 헤드는 특히 fastText에서 비선형 스플라인 기저가 미묘한 어휘 패턴을 포착하면서 MLP 기준선을 일관되게 근접하거나 능가한다.
- 효율성: FasterKAN은 MLP 대비 추론 시간을 약 30 % 단축하면서 최고 모델 대비 F1이 0.5 % 이내에 머문다.
- 임베딩 선택에 대한 강인성: 단순 TF‑IDF 벡터에서도 KAN이 성능을 향상시키며, 헤드의 함수 형태가 인코더만큼 중요함을 시사한다.
실용적 시사점
- 저자원 배포: 언어가 충분히 대표되지 않은 경우, 대형 다국어 인코더를 고정하고(GPU 메모리 절감) 가벼운 KAN 헤드로 교체하면 눈에 띄는 성능 향상이 가능.
- 엣지·모바일 시나리오: FasterKAN의 낮은 파라미터 수와 빠른 추론은 장치 내 뉴스 카테고리 분류, 챗봇 의도 감지, 혹은 대역폭이 제한된 콘텐츠 검열에 적합.
- 신속한 프로토타이핑: 헤드만 학습하면 단일 GPU에서 몇 분 안에 실험이 종료돼 새로운 라벨 집합이나 도메인 변화를 빠르게 A/B 테스트할 수 있다.
- 전이 가능성: 동일한 KAN‑헤드 구조를 고정된 임베딩(예: 이미지용 CLIP, 오디오용 wav2vec) 위에 바로 적용할 수 있어, 저자원 교차 모달 작업에 문을 연다.
한계 및 향후 연구
- 고정 인코더 가정 – 트랜스포머를 공동 미세조정하지 않았으며, 인코더를 함께 업데이트할 경우 이득이 더 클 수도(혹은 작을 수도) 있다.
- 매우 큰 라벨 공간에 대한 확장성 – 실험은 약 10개의 뉴스 카테고리로 제한됐으며, 수백 개 클래스에 대한 성능은 검증되지 않음.
- 해석 가능성 – KAN은 수학적으로 기반이 있지만, 텍스트에 대한 학습된 스플라인/푸리에 기저를 시각화하는 방법은 아직 미해결.
- 다양한 언어 적용 – 저자들은 다른 저자원 언어(예: 크메르어, 라오어)와 다중언어 다중작업 설정에서 KAN 헤드를 평가할 계획.
저자
- Thura Aung
- Eaint Kay Khaing Kyaw
- Ye Kyaw Thu
- Thazin Myint Oo
- Thepchai Supnithi
논문 정보
- arXiv ID: 2511.21081v1
- Categories: cs.CL, cs.AI, cs.LG
- Published: November 26, 2025
- PDF: Download PDF