[Paper] Horizon-LM: LLM 훈련을 위한 RAM 중심 아키텍처

발행: (2026년 2월 5일 오전 03:04 GMT+9)
9 분 소요
원문: arXiv

Source: arXiv - 2602.04816v1

위에 제공된 소스 링크 외에 번역을 원하는 텍스트를 알려주시면, 해당 내용을 한국어로 번역해 드리겠습니다.

Overview

이 논문은 Horizon‑LM이라는 새로운 학습 시스템을 소개한다. 이 시스템은 대규모 언어 모델(LLM) 학습에 대한 전통적인 GPU‑중심 관점을 뒤집는다. 호스트의 RAM을 주요 파라미터 저장소로 사용하고 GPU를 단기간 연산 워커로만 활용함으로써, Horizon‑LM은 단일 노드에서 이전에는 불가능했던 모델을 학습할 수 있게 하며, 다중 GPU 클러스터에 대한 의존도를 크게 줄인다.

핵심 기여

  • Memory‑centric architecture: 호스트 메모리가 권위 있는 파라미터 저장소가 되며, GPU는 일시적인 연산 엔진으로 동작한다.
  • CPU‑master / GPU‑template execution model: 지속적인 GPU 상주 모델 복사와 autograd 그래프를 제거하여 GPU 메모리 압력을 크게 낮춘다.
  • Explicit recomputation & manual gradient propagation: 자동 미분을 경량화된 프로그래머 제어 파이프라인으로 대체하여 메모리 사용량을 모델 파라미터 크기로 제한한다.
  • Double‑buffered pipelined engine: 데이터 이동, forward, backward 패스를 겹쳐 실행함으로써 빈번한 호스트‑GPU 전송에도 GPU를 지속적으로 활용한다.
  • Scalable single‑node training: 1.5 TB 호스트 RAM을 장착한 단일 NVIDIA H200 GPU에서 최대 120 B‑parameter 모델 학습을 시연한다.
  • Performance gains: 표준 A100 기반 워크스테이션에서 CPU 오프로드를 적용한 DeepSpeed ZeRO‑3 대비 12.2× 높은 처리량을 달성하면서도 수치 정확성을 유지한다.

방법론

  1. Parameter Store Relocation – 모든 모델 가중치는 호스트 RAM에 존재합니다. 시스템은 단일하고 일관된 복사본을 유지하여 각 GPU가 자체 파편을 보유할 필요가 없게 합니다.
  2. Transient GPU Execution – 각 학습 단계마다 모델의 템플릿이 GPU에 스트리밍되어 실행된 뒤 바로 폐기됩니다. 지속적인 autograd 그래프가 장치에 남아 있지 않습니다.
  3. Manual Gradient Flow – 딥러닝 프레임워크의 자동 미분에 의존하는 대신, Horizon‑LM은 역전파 과정에서 활성값을 다시 계산하고 호스트 메모리에서 직접 그래디언트를 누적합니다.
  4. Double‑Buffering – GPU 단계당 두 개의 버퍼를 사용해 현재 마이크로‑배치를 처리하는 동안 다음 마이크로‑배치를 로드하여 PCIe/NVLink 전송 지연을 가립니다.
  5. Pipeline Scheduling – 시스템은 버퍼를 활용해 forward, backward, weight‑update 단계들을 파이프라인 방식으로 스케줄링함으로써, 대부분의 데이터가 CPU 측에 있더라도 GPU가 유휴 상태가 되지 않도록 합니다.

전체 설계는 의도적으로 단순합니다: CPU가 데이터 이동 및 그래디언트 집계를 담당하고, GPU는 순수 행렬 곱셈에 집중합니다.

결과 및 발견

플랫폼호스트 RAMGPU최대 모델 크기 (학습)DeepSpeed ZeRO‑3 대비 처리량
NVIDIA H200 (1.5 TB RAM)1.5 TBH200120 B 파라미터
NVIDIA A100 (standard workstation)256 GBA10030 B 파라미터12.2× 빠름
NVIDIA A100 (256 GB RAM)256 GBA10045 B 파라미터8.5× 빠름
  • 메모리 예측 가능성: 피크 GPU 메모리는 모델 크기에 관계없이 단일 마이크로 배치에 필요한 이론적 최소값을 초과하지 않습니다.
  • 디바이스 활용도: GPU 점유율이 모든 테스트 구성에서 85 % 이상을 유지하여, 이중 버퍼 파이프라인이 데이터 전송 오버헤드를 효과적으로 숨김을 확인했습니다.
  • 수치 정확도: 학습 손실 곡선이 모든 실험에서 ZeRO‑3과 0.1 % 이내로 일치하여, 수동 재계산이 모델 품질을 저하시키지 않음을 보여줍니다.

Practical Implications

  • Node‑scale fine‑tuning: 연구원과 엔지니어는 이제 멀티‑노드 클러스터를 구성하지 않고도 100 B 규모 모델에 대해 인스트럭션 튜닝, 정렬(alignment) 또는 도메인 적응을 수행할 수 있습니다.
  • Cost reduction: 비싼 GPU 메모리 대신 저렴한 호스트 RAM(예: DDR4/DDR5)을 활용함으로써 조직은 기존 고용량 서버를 LLM 작업에 재활용할 수 있습니다.
  • Simplified stack: 복잡한 분산 런타임(예: NCCL‑based all‑reduce)을 제거하면 운영 오버헤드와 디버깅 복잡성이 감소합니다.
  • Hardware flexibility: 충분한 PCIe/NVLink 대역폭을 갖춘 모든 GPU에서 작동하므로, 충분한 RAM과 결합될 경우 소비자 등급 GPU도 대형 모델 실험에 활용할 수 있습니다.
  • Future hardware design: 가속기의 역할을 순수 연산으로 한정하고, 시스템 메모리 계층이 용량을 담당하는 “메모리‑우선” 가속기로의 전환을 시사합니다.

제한 사항 및 향후 작업

  • CPU‑GPU 대역폭 제한: 이 접근 방식은 고처리량 인터커넥트에 의존한다; PCIe 링크가 느린 시스템에서는 이중 버퍼 파이프라인이 병목이 될 수 있다.
  • 수동 그래디언트 처리: 논문이 프레임워크를 제공하지만, 개발자는 명시적인 재계산 모델에 맞게 학습 루프를 수정해야 하며, 이는 코드 복잡성을 증가시킬 수 있다.
  • 단일 노드 이상의 확장성: Horizon‑LM은 노드 규모 학습에 초점을 맞추고 있어, 메모리 중심 모델을 다중 서버 클러스터와 같은 다중 노드 환경으로 확장하는 것은 아직 해결되지 않은 과제이다.
  • 이색 연산자 지원: 커스텀 커널이나 텐서가 아닌 연산은 일시적인 GPU 실행 모델에 맞추기 위해 추가적인 엔지니어링이 필요할 수 있다.

저자들은 차세대 단계로 적응형 버퍼링 전략을 탐구하고, 기존 딥러닝 프레임워크와의 긴밀한 통합 및 하이브리드 다중 노드 확장을 제안한다.

저자

  • Zhengqing Yuan
  • Lichao Sun
  • Yanfang
  • Ye

논문 정보

  • arXiv ID: 2602.04816v1
  • 분류: cs.OS, cs.CL, cs.DC
  • 출판일: 2026년 2월 4일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »