[Paper] OServe: 공간-시간 워크로드 오케스트레이션을 통한 LLM 서빙 가속화

발행: (2026년 2월 13일 오전 01:34 GMT+9)
8 분 소요
원문: arXiv

Source: arXiv - 2602.12151v1

개요

이 논문은 OServe라는 새로운 서빙 시스템을 소개한다. 이 시스템은 대형 언어 모델(LLM)용으로, 실제 워크로드의 공간적 (다양한 요청 크기와 메모리 사용량) 및 시간적 (시간에 따라 변하는 요청 혼합) 이질성에 동적으로 적응한다. 이기종 모델 복제본을 조정하고 실시간으로 전환함으로써, OServe는 기존 정적 서빙 스택보다 **2×**까지 높은 처리량을 달성하면서 지연 시간을 예측 가능하게 유지한다.

핵심 기여

  • Workload‑aware scheduler는 현재 요청 분포를 기반으로 이기종 모델 배포(예: 서로 다른 양자화 수준, 샤딩 전략)의 최적 조합을 선택합니다.
  • Adaptive deployment switching 메커니즘은 예측된 워크로드 패턴이 변할 때 모델 복제본을 마이그레이션하거나 재구성하며, 큰 다운타임 없이 수행합니다.
  • Comprehensive evaluation는 프로덕션 수준 트레이스를 사용한 평가로, vLLM 및 TGI와 같은 최신 서빙 프레임워크 대비 평균 1.5×(최대 2×) 속도 향상을 보여줍니다.
  • Open‑source prototype은 인기 있는 추론 런타임(TensorRT‑LLM, PyTorch Serve)과 통합되며 기존 추론 파이프라인에 바로 적용할 수 있습니다.

방법론

  1. Characterizing Heterogeneity – 저자들은 먼저 다양한 LLM 배포 형태(전체 정밀도, 8‑bit, 4‑bit, 텐서‑패러럴 vs 파이프라인‑패러럴)를 프로파일링하여 리소스‑성능 조회 테이블(GPU 메모리 ↔ 지연 시간 ↔ 처리량)을 구축합니다.
  2. Real‑time Workload Monitoring – 가벼운 컬렉터가 초당 통계치를 집계합니다: 요청 길이, 토큰 수, 메모리 압박.
  3. Scheduling Algorithm – 조회 테이블과 실시간 메트릭을 활용해 혼합 정수 선형 프로그램(빠른 휴리스틱으로 해결)을 사용해 각 GPU 노드에서 각 배포 유형의 복제본 수를 결정합니다. 목표는 처리량 최대화지연 SLA 준수 사이의 균형을 맞추는 것입니다.
  4. Predictive Switching – 단기 시계열 모델(ARIMA‑like)이 워크로드 변화를 예측합니다. 예측된 변동이 신뢰 임계값을 초과하면 OServe가 배포 마이그레이션을 트리거합니다: 백그라운드에서 새로운 조합을 시작하고, 소량의 요청 배치로 워밍업한 뒤, 기존 복제본을 점진적으로 종료합니다.
  5. Evaluation Setup – 실험은 클라우드 기반 챗봇 서비스의 실제 요청 트레이스(≈10 k 요청/시간, 짧은 프롬프트와 긴 완성의 혼합)를 4‑노드 GPU 클러스터(노드당 8 × A100)에서 수행합니다. 기준선으로는 정적 동질 배포와 널리 사용되는 vLLM 스케줄러를 포함합니다.

결과 및 발견

지표OServevLLM (static)TGI (static)
Throughput (req/s)2.0× peak, 1.5× avg1.0×0.9×
99th‑pct latency120 ms (SLA met)210 ms230 ms
GPU memory utilization78 % (balanced)92 % (over‑commit)85 %
Switching overhead< 5 % of request volumeN/AN/A
  • 스케줄러는 고처리량 짧은 프롬프트에 대해 저정밀(4‑bit) 레플리카와 긴 컨텍스트 생성에 대해 풀프리시전 샤드를 일관되게 혼합 선택합니다.
  • 적응형 스위칭은 “콜드‑스타트” 패널티를 감소시킵니다: 워크로드가 전환된 후 OServe는 약 30 seconds 내에 새로운 최적 구성을 달성하는 반면, 정적 베이스라인은 지속적인 지연 스파이크를 겪습니다.
  • 시스템이 필요하지 않을 때 고메모리 레플리카를 종료할 수 있어 에너지 소비가 약 12 % 감소합니다.

Practical Implications

  • Cost Savings for Cloud Providers – 동일한 GPU 풀에 더 많은 요청을 묶어 처리함으로써 운영자는 하드웨어 업그레이드를 연기하거나 스팟 인스턴스 비용을 줄일 수 있습니다.
  • SLA‑Driven SaaS Products – 챗봇 및 코드 어시스턴트 서비스는 트래픽 급증 시에도(예: 제품 출시) 더 엄격한 지연 시간 제한을 보장할 수 있습니다.
  • Developer Flexibility – 팀은 단일 추론 엔드포인트를 제공하면서 OServe가 양자화 레벨이나 샤딩 전략을 조용히 전환하도록 할 수 있어, 여러 배포 파이프라인을 유지할 필요가 없습니다.
  • Edge & On‑Device Scenarios – 메모리 제약이 디바이스마다 크게 다른 이기종 엣지 가속기(CPU, NPU, GPU)에도 동일한 원칙을 적용할 수 있습니다.

제한 사항 및 향후 연구

  • 모델 세분화 – OServe는 현재 고정된 사전 컴파일된 배포 변형 집합을 가정합니다; 임의의 실시간 양자화로 확장하면 유연성이 향상됩니다.
  • 예측 정확도 – 워크로드 예측 구성 요소는 일주기 패턴에서는 잘 작동하지만 급격한 급증(예: 플래시 크라우드 이벤트)에서는 지연될 수 있습니다. 보다 견고한 온라인 학습 모델이 유망한 방향입니다.
  • 멀티 테넌트 격리 – 이 논문은 단일 테넌트의 워크로드에 초점을 맞추고 있으며, 여러 고객 간의 보안 및 공정성을 다루려면 추가 스케줄링 제약이 필요합니다.
  • 하드웨어 다양성 – 실험은 동질적인 A100 클러스터에만 제한되어 있으며, 혼합 세대 GPU 또는 최신 가속기(예: Habana, AWS Trainium)에서의 평가가 향후 연구 과제로 남아 있습니다.

저자

  • Youhe Jiang
  • Fangcheng Fu
  • Taiyi Wang
  • Guoliang He
  • Eiko Yoneki

논문 정보

  • arXiv ID: 2602.12151v1
  • Categories: cs.DC
  • Published: 2026년 2월 12일
  • PDF: Download PDF
0 조회
Back to Blog

관련 글

더 보기 »

HashiCorp Vault와 WIF로 현대 워크로드 보안

현대 기업들은 점점 더 클라우드‑네이티브화되어, 여러 클라우드, Kubernetes 클러스터, 그리고 CI/CD 파이프라인에 걸쳐 워크로드를 실행하고 있습니다. CIO, CISO, 그리고 기술…