[논문] 클레어보이언트: 직렬 LLM 백엔드의 헤드오브라인 차단을 완화하는 예측형 SJF 스케줄링

발행: (2026년 6월 5일 PM 10:19 GMT+9)
3 분 소요
원문: arXiv

출처: arXiv - 2606.07248v1

Overview

직렬 LLM 추론 백엔드(예: Ollama)는 FCFS(선착순) 입장을 적용해 요청을 하나씩 처리하므로, 혼합 워크로드와 높은 활용도에서 Head-of-Line Blocking(HOLB)이 발생한다. 짧은 사실 질의가 긴 생성 작업 뒤에 몇 분씩 지연될 수 있다. 클라우드 규모 배포에서는 연속 배칭(vLLM, Orca)으로 HOLB를 완화하지만, 이 솔루션은 동시 KV‑캐시를 위해 수십 GB의 VRAM을 필요로 하며, 메모리 제약이 있는 엣지·로컬 환경에서는 실현 불가능하다. 우리는 \clairvoyant를 제안한다. 이는 어떠한 직렬 OpenAI 호환 백엔드(예: Ollama, llama.cpp)에도 바로 끼워넣을 수 있는 사이드카 프록시이다. \clairvoyant는 19개의 가벼운 어휘 특징을 이용해 ONNX‑exported XGBoost 분류기로 응답 길이를 예측하며, 요청당 0.029 ms 지연(전형적인 생성 시간보다 4자리 수 만큼 빠름)을 달성한다. 입장 스케줄링이 정확한 예측보다 상대적 순서에 의존하기 때문에, 시스템은 순위 정확도에 최적화하여 자연 대화 데이터셋에서 분포 내 정확도 62–96 %, 분포 간 정확도 52–66 %를 기록한다. 우리는 정제된 인스트럭션 데이터셋이 길이 예측 학습에 퇴화된 소스임을 발견했다. GPT가 강제하는 간결성 제약으로 인해 Long‑class 샘플이 전체의 0.02 % 미만으로 감소해, 자연 대화 로그만이 실질적인 학습 소스로 남는다. RTX 4090을 이용한 엔드‑투‑엔드 GPU 벤치마크에서는 최대 대기열 압력(동시 100 요청) 하에서 짧은 요청의 P50 지연이 70–76 % 감소했으며, 정상 상태 포아송 도착($ρ=0.74$)에서는 17 % 감소했다. \clairvoyant는 오픈소스이며 추론 백엔드에 별도의 수정이 필요하지 않다.

Key Contributions

  • cs.DC

Methodology

자세한 방법론은 전체 논문을 참고하시기 바랍니다.

Practical Implications

본 연구는 cs.DC 분야의 발전에 기여합니다.

Authors

  • Aravind Sundaresan

Paper Information

  • arXiv ID: 2606.07248v1
  • Categories: cs.DC
  • Published: 2026년 6월 5일
  • PDF: Download PDF
0 조회
Back to Blog

관련 글

더 보기 »