[Paper] 메모리 제한 시스템에서 MoE 기반 LLM을 위한 효율적인 CPU‑GPU 협업 추론

발행: (2025년 12월 18일 오후 09:45 GMT+9)
10 min read
원문: arXiv

Source: arXiv - 2512.16473v1

Overview

Large Language Models (LLMs) have become the backbone of many AI‑driven products, but running them on a typical desktop or laptop is still a nightmare because of the massive memory and compute requirements. Mixture‑of‑Experts (MoE) architectures cut down the compute by activating only a few “expert” sub‑networks per token, yet even the most memory‑efficient MoE models still outgrow the VRAM of consumer GPUs. This paper introduces a CPU‑GPU collaborative inference framework that keeps a hot‑cache of experts on the GPU and falls back to the CPU when a cache miss occurs, dramatically reducing data‑movement latency and making MoE‑based LLMs usable on memory‑limited machines.

주요 기여

  • GPU‑resident expert cache: GPU에 가장 자주 사용되는 전문가 가중치를 저장하는 경량 캐시 레이어로, 많은 추론 단계를 캐시 히트로 전환하고 무거운 가중치 전송을 방지합니다.
  • CPU‑driven miss handling: 전문가가 GPU 캐시에 없을 경우 CPU가 이를 가져와 고도로 병렬화된 멀티스레딩으로 연산을 수행하고, 선택적으로 향후 재사용을 위해 캐시에 넣습니다.
  • Unified scheduling runtime: 토큰별로 GPU(캐시 히트)에서 실행할지 CPU(캐시 미스)로 오프로드할지를 동적으로 결정하는 스케줄러로, 지연 시간과 처리량을 균형 있게 조절합니다.
  • Open‑source implementation: 캐시 매니저, 스케줄러, 그리고 인기 MoE 라이브러리와의 통합을 포함한 전체 프로토타입을 GitHub에 공개하여 재현 가능성과 커뮤니티 확장을 지원합니다.
  • Empirical validation on consumer hardware: 16 GB RTX 3060과 8코어 CPU를 사용한 벤치마크에서 순수 CPU 전용 추론 대비 2.3× 속도 향상, 기존 GPU 오프로드 방식 대비 1.6× 속도 향상을 달성했으며, 메모리 사용량을 GPU 한계 내에 유지했습니다.

Source:

방법론

  1. 전문가 프로파일링: 시스템은 대표적인 워크로드에서 MoE 모델을 프로파일링하여 가장 자주 접근되는 전문가(예: 토큰 분포 기반)를 식별합니다.
  2. 캐시 구성: 상위 K개의 전문가(K는 사용 가능한 GPU 메모리에 맞게 설정)를 시작 시점에 GPU에 미리 로드합니다. 캐시는 전문가 ID를 키로 하는 간단한 해시 맵으로 구현됩니다.
  3. 동적 스케줄링: 추론 중에 각 토큰의 라우팅 결정(활성화할 전문가) 여부를 캐시와 비교합니다.
    • 캐시 히트: 전문가 가중치가 이미 GPU에 존재하므로 토큰은 최소 지연으로 GPU에서 처리됩니다.
    • 캐시 미스: 요청이 CPU로 전달됩니다. CPU는 메인 메모리에서 전문가 가중치를 로드하고, OpenMP 기반 병렬성을 이용해 행렬 곱을 수행한 뒤 결과를 반환합니다. 선택적으로, 미스가 발생하면 가장 유용한 전문가를 GPU에 유지하기 위해 LRU와 같은 캐시 교체 정책을 트리거할 수 있습니다.
  4. 동기화 및 겹침: CPU가 미스를 처리하는 동안 GPU는 캐시 히트 토큰을 계속 처리할 수 있어, 계산과 데이터 이동을 겹쳐 지연을 숨깁니다.
  5. 평가 설정: 실험은 단일 요청 추론 시나리오(채팅형 애플리케이션에서 가장 일반적인 패턴)에서 수행했으며, 인기 있는 MoE LLM(예: Switch‑Transformer‑7B)을 사용하고 세 가지 베이스라인과 비교했습니다: 순수 CPU, 전체 오프로드된 순수 GPU, 그리고 캐시 없이 단순 CPU‑GPU 오프로드.

Results & Findings

구성GPU 메모리 피크토큰당 평균 지연시간처리량 (토큰/초)
순수 CPU< 2 GB28 ms35
순수 GPU (오프로드)12 GB (전체 모델)19 ms52
CPU‑GPU 오프로드 (캐시 없음)8 GB15 ms66
제안된 CPU‑GPU 협업 (캐시 적중률 68 %)8 GB11 ms84
  • 캐시 적중률은 짧은 워밍업 후 약 65‑70 % 수준으로 안정화되며, 일반적인 프롬프트에 대해 소수의 전문가가 추론을 지배한다는 것을 확인한다.
  • 지연 시간 감소는 적중 시 가중치 전송을 없애는 것이 주된 원인이며, 멀티스레드 BLAS 커널 덕분에 CPU 전용 연산도 경쟁력을 유지한다.
  • 확장성: GPU 메모리 예산을 더 줄이면(예: 6 GB) 시스템은 적은 수의 전문가만 캐시하도록 우아하게 성능이 감소하지만, 여전히 순수 오프로드 기준보다 우수하다.

Source:

Practical Implications

  • 노트북이나 엣지 서버에 LLM 배포: 이제 GPU VRAM을 초과할 수 있는 MoE 기반 모델을 실행할 수 있어, 온‑디바이스 AI 비서, 코드 자동 완성 도구, 프라이버시‑민감 애플리케이션을 위한 로컬 추론이 가능해집니다.
  • 비용 효율적인 확장: 기업은 고성능 A100‑급 하드웨어에 투자하는 대신, 보통 수준의 GPU와 CPU를 혼합해 더 많은 동시 사용자를 지원할 수 있습니다.
  • 프레임워크 통합: 캐시‑인식 스케줄러를 기존 PyTorch 또는 TensorFlow MoE 라이브러리 주위에 래핑할 수 있어, 이미 해당 스택을 사용하는 팀은 최소한의 코드 변경만으로 적용할 수 있습니다.
  • 에너지 절감: 드물게 사용되는 전문가를 CPU로 오프로드함으로써 GPU 유휴 시간을 줄이고 전체 전력 소비를 낮출 수 있어, 데이터센터 운영자에게 매력적인 지표가 됩니다.

제한 사항 및 향후 작업

  • 단일 요청 초점: 현재 설계는 한 번에 하나의 요청에 대한 지연 시간을 최적화합니다; 배치 추론 시나리오(서비스 API에서 일반적)는 다른 스케줄링 전략이 필요할 수 있습니다.
  • 캐시 제거 정책: 논문에서는 간단한 LRU 방식을 사용합니다; 보다 정교한 정책(예: 전문가 인기도를 예측하는 학습 기반 방법)은 적중률을 더욱 높일 수 있습니다.
  • 매우 큰 배치에서 CPU 병목: 동시에 많은 캐시 미스가 발생하면 CPU가 성능 병목이 될 수 있습니다; 향후 연구에서는 여러 CPU 또는 전용 추론 가속기로의 이기종 오프로드를 탐색할 수 있습니다.
  • 다른 MoE 변형에 대한 일반화: 평가가 몇몇 Switch‑Transformer 모델에만 제한되어 있습니다; 프레임워크를 최신 희소 게이트 아키텍처(예: GLaM, Mixtral)로 확장하면 적용 범위가 넓어짐을 검증할 수 있습니다.

전반적으로, CPU‑GPU 협업 추론 프레임워크는 강력한 MoE 기반 LLM을 일상적인 하드웨어에 적용할 수 있는 실용적인 경로를 제공하며, 메모리 제약을 차단 요인에서 관리 가능한 엔지니어링 과제로 전환합니다.

저자

  • En-Ming Huang
  • Li-Shang Lin
  • Chun-Yi Lee

논문 정보

  • arXiv ID: 2512.16473v1
  • 분류: cs.DC
  • 출판일: 2025년 12월 18일
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »

[Paper] HEAL 데이터 플랫폼

목표: 목표는 cloud-based, federated system을 개발하여 데이터가 생성되는 환경에서 단일 search, discovery 및 analysis 지점으로 제공하는 것이었습니다.