[Paper] Mixture of Space Experts를 이용한 LLM의 파라미터 효율적 파인튜닝

발행: 3일 전 (2026년 2월 16일 오후 03:07 GMT+9)

8 분 소요

원문: arXiv

Source: arXiv - 2602.14490v1

Overview

이 논문은 Mixture of Space (MoS) 라는 새로운 파라미터 효율적 파인튜닝(PEFT) 프레임워크를 소개합니다. MoS는 대형 언어 모델(LLM)이 데이터를 동시에 여러 기하학적 다양체(예: 유클리드, 쌍곡선, 구면)에서 표현하도록 합니다. 인기 있는 LoRA 기법을 MoSLoRA 로 확장함으로써, 저자들은 LLM이 토큰이나 컨텍스트마다 가장 적합한 기하학을 선택할 수 있게 하여, 수학 중심 및 추론 벤치마크에서 눈에 띄게 향상된 성능을 달성합니다.

주요 기여

Unified multi‑manifold PEFT: Euclidean, hyperbolic, 그리고 spherical 전문가들을 하나의 파인‑튜닝 레이어에 결합하는 Mixture of Space 아키텍처를 제안합니다.
MoSLoRA: 이기종 기하학 전문가들을 포함하도록 Low‑Rank Adaptation (LoRA)을 확장하여, LoRA의 저‑파라미터 예산을 유지하면서 곡률‑인식 표현력을 추가합니다.
Lightweight routing mechanism: 주어진 입력에 대해 활성화할 기하학 전문가(들)를 결정하는 계산 비용이 낮은 선택자를 도입하여, 전체 매니폴드 전환의 높은 비용을 피합니다.
Curvature‑optimization insights: 곡률 파라미터 학습이 학습 안정성과 다운스트림 정확도에 미치는 영향을 실증적으로 분석합니다.
Strong empirical gains: 훈련 가능한 파라미터 수를 늘리지 않고도 최신 PEFT 베이스라인 대비 일관된 향상을 보여줍니다. 예를 들어 MATH500에서 +5.6 % 및 MAWPS에서 +15.9 % 향상되었습니다.

Methodology

Geometric Experts – 각 전문가(Expert)는 특정 매니폴드에 존재하는 저‑랭크 어댑터(LoRA와 동일)입니다:
- Euclidean: 표준 선형 변환.
- Hyperbolic: 계층적 관계를 포착하기 위해 Poincaré 구 모델을 사용합니다.
- Spherical: 순환 또는 주기적 패턴을 모델링하기 위해 데이터를 단위 구에 임베딩합니다.
Mixture Layer – 토큰마다 모델은 작은 MLP를 통해 소프트 라우팅 벡터를 계산하고, 이를 세 전문가에게 가중치를 할당합니다. 최종 어댑테이션은 전문가 출력들의 가중합으로, 필요할 때 서로 다른 기하학을 혼합할 수 있게 합니다.
Parameter Efficiency – 저‑랭크 행렬과 라우팅 네트워크만 학습 가능하고, 기본 LLM 가중치는 고정된 채 유지됩니다. 따라서 전체 학습 가능한 파라미터 수는 일반 LoRA와 비슷한 수준(전체 모델의 ≈0.1 %)을 유지합니다.
Training Procedure
- 곡률 파라미터(예: 하이퍼볼릭 반경)를 초기화하고 어댑터와 함께 공동 학습합니다.
- 다운스트림 작업에 표준 교차 엔트로피 손실을 적용합니다; 곡률 업데이트는 수치적 불안정을 방지하도록 정규화됩니다.
Implementation Tricks
- 재파라미터화를 사용해 유클리드 기울기를 비유클리드 매니폴드의 탄젠트 공간으로 매핑합니다.
- 추론 시 오버헤드를 줄이기 위해 매니폴드‑특화 연산을 캐시합니다.

Results & Findings

벤치마크	베이스라인 (LoRA)	MoSLoRA	상대 향상
MATH500	71.2 %	76.8 %	+5.6 %
MAWPS	42.3 %	58.2 %	+15.9 %
SST‑2	94.1 %	94.5 %	+0.4 %
WikiSQL	84.7 %	86.1 %	+1.4 %

일관된 승리가 분류, 추론, 검색‑보강 작업 전반에 걸쳐 나타남.
학습 안정성이 곡률 파라미터를 정규화할 때 향상되며, 라우팅 네트워크는 기존 LoRA와 동일한 epoch 수 내에 수렴함.
파라미터 예산은 본질적으로 변함없음 (전체 모델 파라미터의 ≈0.12 %).

실용적 함의

Plug‑and‑play fine‑tuning: 개발자는 기존 파이프라인(e.g., Hugging Face peft library)에서 표준 LoRA 어댑터를 MoSLoRA로 교체하여 전체 모델을 재학습할 필요 없이 사용할 수 있다.
Better handling of hierarchical data: 지식‑그래프 완성, 분류 체계 분류, 혹은 코드‑베이스 탐색과 같은 응용 프로그램은 하이퍼볼릭 전문가가 트리‑형 구조를 포착하는 능력으로 이점을 얻을 수 있다.
Improved reasoning for math/logic tasks: 구형 전문가가 순환 패턴(예: 주기 함수)을 모델링하는 데 도움을 주며, 혼합은 단일‑공간 어댑터가 놓치는 미묘한 추론을 가능하게 한다.
Low inference overhead: 라우팅 네트워크는 토큰당 몇 마이크로초만 추가하므로 MoSLoRA는 지연‑민감 서비스(챗봇, 코드 어시스턴트)에 적합하다.
Future‑proofing: 새로운 다양체(e.g., product manifolds)가 더 잘 이해되면 전체 PEFT 스택을 재설계하지 않고도 추가 전문가로서 도입할 수 있다.

제한 사항 및 향후 연구

다양체 선택이 세 개의 공간으로 제한됨; 더 이색적인 기하학은 성능을 더욱 향상시킬 수 있지만 라우팅 복잡성을 증가시킬 수 있다.
곡률 학습은 매우 깊은 어댑터에서 불안정할 수 있음; 논문에서는 더 강력한 정규화 또는 커리큘럼 학습을 가능한 해결책으로 제시한다.
벤치마크가 영어 작업에 초점을 맞춤; 교차 언어 또는 멀티모달 시나리오는 아직 탐구되지 않았다.
라우팅 해석 가능성: 소프트 가중치는 어떤 기하학이 사용되는지를 나타내지만, 특정 입력이 특정 다양체를 선호하는 이유에 대한 심층 분석은 향후 연구로 남겨진다.

저자

Buze Zhang
Jinkai Tao
Zilang Zeng
Neil He
Ali Maatouk
Menglin Yang
Rex Ying

논문 정보

arXiv ID: 2602.14490v1
분류: cs.LG, cs.AI, cs.CL, cs.NE
발표일: 2026년 2월 16일
PDF: PDF 다운로드

[Paper] Mixture of Space Experts를 이용한 LLM의 파라미터 효율적 파인튜닝

Overview

주요 기여

Methodology

Results & Findings

실용적 함의

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] 우리는 누구를 신뢰할 수 있을까? LLM-as-a-jury for Comparative Assessment

[Paper] 대규모 언어 모델에서 조합적 추론을 위한 재귀적 개념 진화

[Paper] TAROT: 테스트 기반 및 능력 적응형 커리큘럼 강화 파인튜닝을 통한 대형 언어 모델의 코드 생성

[Paper] 언어 통계의 대칭이 모델 표현의 기하학을 형성한다