[Paper] LLMServingSim 2.0: 이기종 및 분산형 LLM 서빙 인프라를 위한 통합 시뮬레이터

발행: (2026년 2월 26일 오후 11:22 GMT+9)
9 분 소요
원문: arXiv

Source: arXiv - 2602.23036v1

Overview

LLMServingSim 2.0은 시스템 수준 시뮬레이터로, 엔지니어가 이기종 가속기(GPU, TPU, 신흥 근접 메모리 칩)와 분산된 서빙 아키텍처(별도 컴퓨트, 메모리, 모델 샤드)가 런타임에서 어떻게 상호 작용하는지를 탐색할 수 있게 해줍니다. 하드웨어와 소프트웨어 결정을 하나의 시뮬레이션 루프에 통합함으로써, 이 도구는 복잡한 LLM 배포에 대한 지연 시간, 메모리 사용량, 전력을 실제에 가까운 정확도로 예측할 수 있게 합니다.

주요 기여

  • 통합 런타임 기반 시뮬레이션은 서빙 스택 결정(배칭, 라우팅, 오프로드)과 상세 하드웨어 동작을 결합합니다.
  • 프로파일 기반 확장성을 통해 핵심 시뮬레이터를 재작성하지 않고도 새로운 가속기, 메모리 기술, 인터커넥트를 플러그인할 수 있습니다.
  • 고충실도 검증: 프로덕션 클러스터와 비교했을 때 지연 시간, 메모리, 전력에서 평균 오류가 1 % 미만입니다.
  • 빠른 처리 시간: 현실적인 구성의 엔드‑투‑엔드 실행이 단일 워크스테이션에서 약 10분 내에 완료됩니다.
  • 오픈소스 레퍼런스 구현(관용적인 라이선스로 공개)과 문서 및 예제 워크로드를 제공합니다.

방법론

  1. Runtime Loop Integration – 시뮬레이터는 단일 “serving tick”을 모델링하며, 먼저 스케줄링 정책을 적용하고(예: 어떤 요청이 어느 가속기로 가는지), 그 다음 하드웨어 상태(자원 점유, 메모리 대역폭, 전력 소모)를 업데이트하고, 마지막으로 시간을 전진시킵니다. 이 긴밀한 루프는 큐 축적이나 메모리 경쟁과 같은 피드백 효과를 포착합니다.
  2. Profile‑Based Hardware Models – 각 가속기 또는 메모리 모듈은 지연 시간 테이블, 대역폭 제한, 전력 곡선, 계산 처리량을 포함하는 JSON/YAML 프로파일로 설명됩니다. 새로운 장치를 추가하는 것은 보정된 프로파일을 제공하는 것만큼 간단합니다.
  3. Disaggregated Component Modeling – 컴퓨트 노드, 메모리 풀, 모델‑샤드 저장소는 구성 가능한 인터커넥트(PCIe, NVLink, CXL)로 연결된 별개의 엔터티로 인스턴스화됩니다. 데이터 이동 비용은 선택된 라우팅 정책에 따라 요청당 계산됩니다.
  4. Serving Stack Hooks – 시뮬레이터는 인기 있는 서빙 프레임워크(e.g., vLLM, TGI)를 모방하는 API를 제공합니다. 연구자는 맞춤형 배치 또는 라우팅 알고리즘을 연결하고 그 영향을 즉시 확인할 수 있습니다.
  5. Validation Suite – GPT‑3 스타일 워크로드를 실행하는 다중 GPU 클러스터의 실제 트레이스를 사용해 프로파일을 보정하고, 시뮬레이션된 지연 시간, 메모리 사용량, 전력이 측정값과 일치하는지 검증했습니다.

결과 및 발견

측정항목시뮬레이션 vs. 실제평균 오차
엔드‑투‑엔드 요청 지연관측값의 99.2 %0.8 %
피크 메모리 사용량관측값의 100.1 %0.1 %
전력 소모 (클러스터 전체)관측값의 98.9 %1.1 %
시뮬레이션 시간 (복잡한 구성)~10 분 vs. 실제 실행 수시간

핵심 요점

  • 이기종성은 중요합니다 – 고처리량 GPU와 저지연 근접 메모리 가속기를 혼합하면 스케줄러가 트레이드오프를 인식할 때 꼬리 지연을 최대 30 %까지 감소시킬 수 있습니다.
  • 분산 오버헤드 – 모델 조각을 원격 메모리 풀로 오프로드하면 토큰당 약 2 µs가 추가됩니다; 그러나 동일한 오프로드는 칩 내 메모리를 해방시켜 더 큰 배치 크기를 가능하게 하여 비용을 상쇄합니다.
  • 전력 인식 라우팅 – 간단한 전력 제한 정책은 지연 패널티를 5 % 미만으로 유지하면서 에너지 소비를 15 % 절감할 수 있으며, 이러한 트레이드오프는 시뮬레이터 없이는 발견하기 어렵습니다.

Practical Implications

  • Accelerator vendors는 LLMServingSim 2.0을 사용해 실리콘이 나오기 전에 실제 서빙 파이프라인에서 새로운 칩을 벤치마크할 수 있으며, 메모리 대역폭 대비 연산 밀도와 같은 설계 선택을 안내합니다.
  • Cloud providers는 분산형 아키텍처(CXL 기반 메모리 풀, 컴포저블 컴퓨트)를 평가하고, 혼합 워크로드에서 예측된 테일 레이턴스를 기반으로 SLA 규모를 결정할 수 있는 샌드박스를 확보합니다.
  • ML engineers는 맞춤형 배칭이나 토큰 라우팅 전략을 실험하고, 비용과 레이턴스에 미치는 영향을 즉시 확인함으로써 며칠 걸리던 반복 주기를 몇 분으로 단축할 수 있습니다.
  • Tooling ecosystem – 시뮬레이터가 인기 있는 서빙 API를 모방하기 때문에 CI 파이프라인에 통합되어 새로운 하드웨어‑소프트웨어 공동 설계에 대한 자동 회귀 테스트를 가능하게 합니다.

제한 사항 및 향후 작업

  • Model granularity – 현재 프로파일은 마이크로아키텍처 세부 사항(예: 캐시 계층 효과)을 추상화하고 있으며, 이는 초저지연 사용 사례에서 중요할 수 있습니다.
  • Network topology – 표준 인터커넥트 토폴로지 몇 가지만 사전 모델링되어 있으며, 보다 이색적인 패브릭(예: 계층형 CXL 패브릭)은 수동으로 확장해야 합니다.
  • Workload diversity – 검증은 자동 회귀 LLM 추론에 초점을 맞추었으며, 향후 작업에서는 검색 강화 생성, 파인튜닝, 멀티모달 모델로 범위를 확대할 예정입니다.
  • Dynamic scaling – 시뮬레이터는 정적 클러스터 크기를 가정하고 있으며, 탄력적 스케일링(필요에 따라 노드 자동 확장) 지원을 추가하는 것이 로드맵에 포함되어 있습니다.

LLMServingSim 2.0은 하드웨어 혁신과 서빙 시스템 설계 사이의 격차를 메우며, 개발자에게 이기종·분산형 LLM 인프라의 차세대를 탐색할 수 있는 실용적이고 빠르며 정확한 방법을 제공합니다.

저자

  • Jaehong Cho
  • Hyunmin Choi
  • Guseul Heo
  • Jongse Park

논문 정보

  • arXiv ID: 2602.23036v1
  • Categories: cs.DC, cs.AI
  • Published: 2026년 2월 26일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »

[Paper] 앵커링을 통한 모델 합의

수많은 라인들이 모델 불일치를 제어하는 것을 목표로 합니다 — 두 머신러닝 모델이 예측에서 얼마나 서로 다른지를 나타냅니다. 우리는 간단하고 stan...