[Paper] Horizon-LM: LLM 훈련을 위한 RAM 중심 아키텍처
Source: arXiv - 2602.04816v1
위에 제공된 소스 링크 외에 번역을 원하는 텍스트를 알려주시면, 해당 내용을 한국어로 번역해 드리겠습니다.
Overview
이 논문은 Horizon‑LM이라는 새로운 학습 시스템을 소개한다. 이 시스템은 대규모 언어 모델(LLM) 학습에 대한 전통적인 GPU‑중심 관점을 뒤집는다. 호스트의 RAM을 주요 파라미터 저장소로 사용하고 GPU를 단기간 연산 워커로만 활용함으로써, Horizon‑LM은 단일 노드에서 이전에는 불가능했던 모델을 학습할 수 있게 하며, 다중 GPU 클러스터에 대한 의존도를 크게 줄인다.
핵심 기여
- Memory‑centric architecture: 호스트 메모리가 권위 있는 파라미터 저장소가 되며, GPU는 일시적인 연산 엔진으로 동작한다.
- CPU‑master / GPU‑template execution model: 지속적인 GPU 상주 모델 복사와 autograd 그래프를 제거하여 GPU 메모리 압력을 크게 낮춘다.
- Explicit recomputation & manual gradient propagation: 자동 미분을 경량화된 프로그래머 제어 파이프라인으로 대체하여 메모리 사용량을 모델 파라미터 크기로 제한한다.
- Double‑buffered pipelined engine: 데이터 이동, forward, backward 패스를 겹쳐 실행함으로써 빈번한 호스트‑GPU 전송에도 GPU를 지속적으로 활용한다.
- Scalable single‑node training: 1.5 TB 호스트 RAM을 장착한 단일 NVIDIA H200 GPU에서 최대 120 B‑parameter 모델 학습을 시연한다.
- Performance gains: 표준 A100 기반 워크스테이션에서 CPU 오프로드를 적용한 DeepSpeed ZeRO‑3 대비 12.2× 높은 처리량을 달성하면서도 수치 정확성을 유지한다.
방법론
- Parameter Store Relocation – 모든 모델 가중치는 호스트 RAM에 존재합니다. 시스템은 단일하고 일관된 복사본을 유지하여 각 GPU가 자체 파편을 보유할 필요가 없게 합니다.
- Transient GPU Execution – 각 학습 단계마다 모델의 템플릿이 GPU에 스트리밍되어 실행된 뒤 바로 폐기됩니다. 지속적인 autograd 그래프가 장치에 남아 있지 않습니다.
- Manual Gradient Flow – 딥러닝 프레임워크의 자동 미분에 의존하는 대신, Horizon‑LM은 역전파 과정에서 활성값을 다시 계산하고 호스트 메모리에서 직접 그래디언트를 누적합니다.
- Double‑Buffering – GPU 단계당 두 개의 버퍼를 사용해 현재 마이크로‑배치를 처리하는 동안 다음 마이크로‑배치를 로드하여 PCIe/NVLink 전송 지연을 가립니다.
- Pipeline Scheduling – 시스템은 버퍼를 활용해 forward, backward, weight‑update 단계들을 파이프라인 방식으로 스케줄링함으로써, 대부분의 데이터가 CPU 측에 있더라도 GPU가 유휴 상태가 되지 않도록 합니다.
전체 설계는 의도적으로 단순합니다: CPU가 데이터 이동 및 그래디언트 집계를 담당하고, GPU는 순수 행렬 곱셈에 집중합니다.
결과 및 발견
| 플랫폼 | 호스트 RAM | GPU | 최대 모델 크기 (학습) | DeepSpeed ZeRO‑3 대비 처리량 |
|---|---|---|---|---|
| NVIDIA H200 (1.5 TB RAM) | 1.5 TB | H200 | 120 B 파라미터 | — |
| NVIDIA A100 (standard workstation) | 256 GB | A100 | 30 B 파라미터 | 12.2× 빠름 |
| NVIDIA A100 (256 GB RAM) | 256 GB | A100 | 45 B 파라미터 | 8.5× 빠름 |
- 메모리 예측 가능성: 피크 GPU 메모리는 모델 크기에 관계없이 단일 마이크로 배치에 필요한 이론적 최소값을 초과하지 않습니다.
- 디바이스 활용도: GPU 점유율이 모든 테스트 구성에서 85 % 이상을 유지하여, 이중 버퍼 파이프라인이 데이터 전송 오버헤드를 효과적으로 숨김을 확인했습니다.
- 수치 정확도: 학습 손실 곡선이 모든 실험에서 ZeRO‑3과 0.1 % 이내로 일치하여, 수동 재계산이 모델 품질을 저하시키지 않음을 보여줍니다.
Practical Implications
- Node‑scale fine‑tuning: 연구원과 엔지니어는 이제 멀티‑노드 클러스터를 구성하지 않고도 100 B 규모 모델에 대해 인스트럭션 튜닝, 정렬(alignment) 또는 도메인 적응을 수행할 수 있습니다.
- Cost reduction: 비싼 GPU 메모리 대신 저렴한 호스트 RAM(예: DDR4/DDR5)을 활용함으로써 조직은 기존 고용량 서버를 LLM 작업에 재활용할 수 있습니다.
- Simplified stack: 복잡한 분산 런타임(예: NCCL‑based all‑reduce)을 제거하면 운영 오버헤드와 디버깅 복잡성이 감소합니다.
- Hardware flexibility: 충분한 PCIe/NVLink 대역폭을 갖춘 모든 GPU에서 작동하므로, 충분한 RAM과 결합될 경우 소비자 등급 GPU도 대형 모델 실험에 활용할 수 있습니다.
- Future hardware design: 가속기의 역할을 순수 연산으로 한정하고, 시스템 메모리 계층이 용량을 담당하는 “메모리‑우선” 가속기로의 전환을 시사합니다.
제한 사항 및 향후 작업
- CPU‑GPU 대역폭 제한: 이 접근 방식은 고처리량 인터커넥트에 의존한다; PCIe 링크가 느린 시스템에서는 이중 버퍼 파이프라인이 병목이 될 수 있다.
- 수동 그래디언트 처리: 논문이 프레임워크를 제공하지만, 개발자는 명시적인 재계산 모델에 맞게 학습 루프를 수정해야 하며, 이는 코드 복잡성을 증가시킬 수 있다.
- 단일 노드 이상의 확장성: Horizon‑LM은 노드 규모 학습에 초점을 맞추고 있어, 메모리 중심 모델을 다중 서버 클러스터와 같은 다중 노드 환경으로 확장하는 것은 아직 해결되지 않은 과제이다.
- 이색 연산자 지원: 커스텀 커널이나 텐서가 아닌 연산은 일시적인 GPU 실행 모델에 맞추기 위해 추가적인 엔지니어링이 필요할 수 있다.
저자들은 차세대 단계로 적응형 버퍼링 전략을 탐구하고, 기존 딥러닝 프레임워크와의 긴밀한 통합 및 하이브리드 다중 노드 확장을 제안한다.
저자
- Zhengqing Yuan
- Lichao Sun
- Yanfang
- Ye
논문 정보
- arXiv ID: 2602.04816v1
- 분류: cs.OS, cs.CL, cs.DC
- 출판일: 2026년 2월 4일
- PDF: PDF 다운로드