[논문] 클레어보이언트: 직렬 LLM 백엔드의 헤드오브라인 차단을 완화하는 예측형 SJF 스케줄링
Overview
직렬 LLM 추론 백엔드(예: Ollama)는 FCFS(선착순) 입장을 적용해 요청을 하나씩 처리하므로, 혼합 워크로드와 높은 활용도에서 Head-of-Line Blocking(HOLB)이 발생한다. 짧은 사실 질의가 긴 생성 작업 뒤에 몇 분씩 지연될 수 있다. 클라우드 규모 배포에서는 연속 배칭(vLLM, Orca)으로 HOLB를 완화하지만, 이 솔루션은 동시 KV‑캐시를 위해 수십 GB의 VRAM을 필요로 하며, 메모리 제약이 있는 엣지·로컬 환경에서는 실현 불가능하다. 우리는 \clairvoyant를 제안한다. 이는 어떠한 직렬 OpenAI 호환 백엔드(예: Ollama, llama.cpp)에도 바로 끼워넣을 수 있는 사이드카 프록시이다. \clairvoyant는 19개의 가벼운 어휘 특징을 이용해 ONNX‑exported XGBoost 분류기로 응답 길이를 예측하며, 요청당 0.029 ms 지연(전형적인 생성 시간보다 4자리 수 만큼 빠름)을 달성한다. 입장 스케줄링이 정확한 예측보다 상대적 순서에 의존하기 때문에, 시스템은 순위 정확도에 최적화하여 자연 대화 데이터셋에서 분포 내 정확도 62–96 %, 분포 간 정확도 52–66 %를 기록한다. 우리는 정제된 인스트럭션 데이터셋이 길이 예측 학습에 퇴화된 소스임을 발견했다. GPT가 강제하는 간결성 제약으로 인해 Long‑class 샘플이 전체의 0.02 % 미만으로 감소해, 자연 대화 로그만이 실질적인 학습 소스로 남는다. RTX 4090을 이용한 엔드‑투‑엔드 GPU 벤치마크에서는 최대 대기열 압력(동시 100 요청) 하에서 짧은 요청의 P50 지연이 70–76 % 감소했으며, 정상 상태 포아송 도착($ρ=0.74$)에서는 17 % 감소했다. \clairvoyant는 오픈소스이며 추론 백엔드에 별도의 수정이 필요하지 않다.
Key Contributions
- cs.DC
Methodology
자세한 방법론은 전체 논문을 참고하시기 바랍니다.
Practical Implications
본 연구는 cs.DC 분야의 발전에 기여합니다.
Authors
- Aravind Sundaresan
Paper Information
- arXiv ID: 2606.07248v1
- Categories: cs.DC
- Published: 2026년 6월 5일
- PDF: Download PDF