[Paper] EWSJF: 혼합 워크로드 LLM 추론을 위한 하이브리드 파티셔닝을 갖춘 적응형 스케줄러

발행: (2026년 1월 29일 오후 11:14 GMT+9)
10 분 소요
원문: arXiv

Source: arXiv - 2601.21758v1

개요

대규모 언어 모델(LLM) 서비스 플랫폼은 매우 다른 두 종류의 트래픽을 동시에 처리해야 합니다: 즉각적인 응답이 필요한 짧고 인터랙티브한 쿼리와, 지연에 더 관대하지만 높은 처리량을 요구하는 긴 배치형 요청입니다. 논문 EWSJF: An Adaptive Scheduler with Hybrid Partitioning for Mixed‑Workload LLM Inference은 워크로드를 실시간으로 학습하고 요청을 가장 적합한 실행 경로로 동적으로 라우팅하는 새로운 요청‑레벨 스케줄러를 제안합니다. 이를 통해 인터랙티브 쿼리의 테일 레이턴시를 감소시키고 전체 하드웨어 활용도를 높입니다.

주요 기여

  • Refine‑and‑Prune partitioning – 사전 워크로드 프로파일링 없이 들어오는 요청을 자동으로 성능이 동질적인 클러스터로 그룹화하는 비지도 알고리즘.
  • Dynamic Queue Routing – 각 요청을 추정된 “실제 작업량”에 따라 적절한 클러스터에 할당하는 경량 런타임 컴포넌트.
  • Density‑Weighted Scoring – 긴 작업이 기아 상태에 빠지는 것을 방지하면서도 짧은 작업을 선호하도록 긴급성(예: 남은 토큰)과 공정성을 결합한 새로운 우선순위 함수.
  • Bayesian Meta‑Optimization – 실시간 지연 및 처리량 메트릭을 사용해 파티셔닝 임계값과 스코어링 가중치를 지속적으로 조정하는 폐쇄 루프 튜너.
  • Integration with vLLM – 저자들은 EWSJF를 오픈소스 vLLM 추론 엔진에 삽입하고, 일반 FCFS 대비 짧은 요청에 대해 30 % 이상의 처리량 향상 및 최대 4배 낮은 첫 토큰 도달 시간(TTFT)을 입증함.

방법론

  1. 워크로드 관찰 – 요청이 들어오면 스케줄러는 간단한 특성(토큰 길이, 모델 버전, 요청 유형)을 추출하고 실행 지연 시간을 모니터링합니다.

  2. 비지도 그룹화 (정제‑및‑가지치기) – 클러스터링 단계(예: 가우시안 혼합 모델)를 사용하고 그 뒤에 가지치기 단계를 거쳐, 시스템은 요청들이 유사한 지연‑대‑작업 비율을 보이는 “밀집” 영역을 발견합니다. 이러한 영역은 공통 실행 프로파일을 공유하는 가 됩니다.

  3. 라우팅 로직 – 새로운 요청이 들어오면, 경량 분류기가 현재의 효율적인 작업 추정치(남은 토큰 ÷ 예상 처리량)를 기반으로 어느 큐가 최상의 서비스를 제공할지 예측합니다.

  4. 우선순위 점수 – 각 큐 내부에서 요청은 밀도 가중 점수에 따라 정렬됩니다:

    [ \text{score} = \frac{w_{\text{urgency}}}{\text{remaining_tokens}} + w_{\text{fairness}} \times \text{queue_density} ]

    가중치는 매우 짧은 쿼리는 앞쪽으로 이동하고, 긴 작업도 진행될 수 있도록 조정됩니다.

  5. 베이지안 메타 최적화 – 베이지안 옵티마이저는 점수 가중치와 클러스터링 하이퍼파라미터를 잠재 변수로 취급합니다. 주기적으로 새로운 구성을 샘플링하고, 실시간 트래픽에 대한 짧은 평가를 실행한 뒤, 사후 분포를 업데이트하여 최적 설정으로 수렴합니다.

모든 구성 요소는 저수준 GPU 스케줄러의 업스트림에 위치하므로, 커널 수준 디스패치 로직을 재작성하지 않고도 기존 LLM 서빙 스택에 바로 삽입할 수 있습니다.

Results & Findings

측정항목FCFS (베이스라인)EWSJF (논문)
엔드‑투‑엔드 처리량 (토큰 / 초)1.00× (베이스라인)+30 %
≤ 64‑토큰 쿼리 평균 TTFT120 ms≈ 30 ms (≈ 4× 빠름)
99번째 백분위수 지연시간 (인터랙티브)500 ms≈ 180 ms
GPU 활용도 (평균)68 %≈ 85 %

핵심 요약

  • 짧은 작업과 긴 작업을 적응형 큐로 분리함으로써, 스케줄러는 FCFS에서 흔히 발생하는 선입선출 차단을 제거합니다.
  • 베이지안 튜너는 워크로드 변화(예: 갑작스러운 배치 작업 급증)에 빠르게 적응하며, 수동 재구성이 필요 없습니다.
  • 긴 작업은 함께 묶어 실행할 수 있어 하드웨어가 더 오래 가동되고, 짧은 작업은 즉시 사용 가능한 컴퓨팅 슬롯에 접근할 수 있어 GPU 활용도가 높아집니다.

Practical Implications

  • LLM SaaS 제공업체는 EWSJF를 통합하여 인터랙티브 채팅에 대한 엄격한 SLA를 충족하면서도 배치 처리 수익을 최대화할 수 있습니다.
  • 엣지 추론 플랫폼(예: 디바이스 내 어시스턴트)은 낮은 TTFT(첫 응답 시간) 덕분에 사용자 경험이 향상되며, 더 큰 GPU가 필요하지 않습니다.
  • DevOps 도구: 베이지안 메타 옵티마이저를 간단한 API로 노출하면 운영자가 고수준 목표(예: “99% 지연시간을 200 ms 미만으로 유지”)를 설정하고 시스템이 자동 튜닝하도록 할 수 있습니다.
  • 비용 효율성: GPU 활용도가 높아지면 동일한 처리량에 대해 클라우드 컴퓨팅 비용이 직접적으로 감소하여 기업에 설득력 있는 ROI 근거가 됩니다.
  • 오픈소스 채택: 구현이 vLLM 위에 구축되어 있기 때문에 해당 스택을 이미 사용하는 팀은 몇 가지 설정만으로 스케줄러를 추가할 수 있어 실험 속도를 가속화합니다.

제한 사항 및 향후 연구

  • Model‑specific tuning – 현재 클러스터링은 비교적 안정적인 지연‑대‑토큰 관계를 가정합니다; 매우 이질적인 모델(예: 인코더‑디코더와 디코더‑전용의 혼합)은 별도의 파티셔닝 전략이 필요할 수 있습니다.
  • Cold‑start latency – Refine‑and‑Prune 단계는 의미 있는 클러스터를 형성하기 위해 짧은 관찰 창이 필요합니다; 급격한 트래픽 급증 시 스케줄러는 일시적으로 FCFS(선입선출)로 전환될 수 있습니다.
  • Scalability of Bayesian optimization – 단일 노드에서는 가볍지만, 메타‑옵티마이저는 대규모 다중 노드 배포에서 병목이 될 수 있습니다; 분산 베이지안 방법이 유망한 방향입니다.
  • Fairness beyond latency – 본 논문은 지연 공정성에 초점을 맞추고 있습니다; 향후 연구에서는 비용이나 우선순위 계층(예: 유료 vs. 무료 사용자)을 스코어링 함수에 포함시킬 수 있습니다.

전체적으로, EWSJF는 기존 추론 엔진 위에 소규모 학습 기반 레이어를 추가함으로써 혼합 워크로드 LLM 서빙에서 상당한 성능 향상을 이끌어낼 수 있음을 보여줍니다—이는 개발자와 최종 사용자 모두에게 이득이 됩니다.

저자

  • Bronislav Sidik
  • Chaya Levi
  • Joseph Kampeas

논문 정보

  • arXiv ID: 2601.21758v1
  • 분류: cs.DC, cs.AI
  • 발행일: 2026년 1월 29일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »