[논문] 가역적 기반: 상태 보존 스케일링을 통한 1200억 규모 희소 MoE 학습

발행: (2026년 6월 6일 AM 12:48 GMT+9)
4 분 소요
원문: arXiv

Source: arXiv - 2606.07404v1

Overview

이 논문은 1000억 파라미터 규모의 희소 전문가 혼합(MoE)을 단일 8‑GPU 노드에서 처음부터 끝까지 학습한 사례를 보고한다. LightningLM 0.1V는 재귀 기반 백본 언어 모델 패밀리로, 작은 밀집 시드 모델에서 시작해 5 B와 9 B MoE를 거쳐 최종적으로 top‑12 라우팅 하에 460개의 라우팅된 전문가를 갖는 120 B 모델까지 네 단계로 성장한다. 각 상위 모델은 하위 모델의 학습된 가중치를 기반으로 확장되며, 활성 파라미터 수는 밀집 시드의 1.78 B에서 120 B 모델의 5.93 B(전체 118.67 B 중 약 5%)까지 단조롭게 증가한다. 전체 라인지는 단일 노드에서 실행되며, 큰 단계에서는 8 K 컨텍스트를 사용해 120 B 규모에서 1.78의 학습 손실을 달성한다. 이는 시스템 및 경험 보고서이며, 세 가지 원칙을 중심으로 구성된다.

  • 가역성: 가역 재귀 스택이 역전파 시 활성값을 재구성해 저장을 피함으로써 모델이 커져도 활성 메모리 사용량을 일정하게 유지한다.
  • 상태 보존 성장: 각 확장(밀집 → MoE, 얕은 → 깊은, 소수 전문가 → 다수 전문가)을 재현 가능한 원칙으로 제시하고, 잘못될 경우 발생하는 실패 사례를 함께 제시한다. 실패 중 일부는 눈에 보이지 않는다.
  • 단일 노드 경제성: 120 B 모델은 TQP(Quantized Base Expert Weights + Trained Low‑Rank Adapters) 전략을 통해 학습된다. 이 전략은 라우팅된 전문가에 상주하는 100 B 이상의 옵티마이저 상태 대신 2.26 B 어댑터 파라미터에 옵티마이저 상태를 저장해 전문가 경로의 옵티마이저 메모리를 약 45배 절감한다.

새로운 점은 개별 원시 기술이 아니라 알려진 원시 기술들의 통합이다: 단일 노드에서 처음부터 끝까지 실행되는 하나의 성장 라인지를 실무 수준에서 문서화했으며, 도메인별 보류 손실을 통해 목표 능력(다국어 인도계 언어 능력, 코드 처리 등)이 설계대로 학습되었음을 증명한다. 모델 패밀리, 토크나이저, 학습 코드는 모두 공개된다.

Key Contributions

이 논문은 다음 분야의 연구를 제시한다.

  • cs.LG

Methodology

자세한 방법론은 전체 논문을 참고하시기 바랍니다.

Practical Implications

본 연구는 cs.LG 분야의 발전에 기여한다.

Authors

  • Rohan Shravan

Paper Information

  • arXiv ID: 2606.07404v1
  • Categories: cs.LG
  • Published: 2026년 6월 5일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »