[논문] 청크 프리필 LLM 서빙을 위한 공정성 인식·지연 제어 스케줄링
개요
대형 언어 모델(LLM)이 점점 더 다양한 워크로드와 함께 배포됨에 따라, 청크 기반 프리필 실행이 주류 서빙 아키텍처로 떠올랐습니다. 이러한 환경에서 스케줄링 공정성과 지연 시간 안정성을 균형 있게 유지하는 것은 매우 중요합니다; 그렇지 않으면 헤드‑오브‑라인 차단과 요청 기아가 심각해져 사용자 경험이 저하됩니다. 그러나 기존 시스템은 경직된 선입선출(FCFS) 정책과 정적인 토큰 예산에 의존해 공정성 저하와 예측 불가능한 지연 지터를 초래합니다. 이러한 문제를 해결하고자 우리는 청크‑프리필 LLM 엔진을 위한 공정성 인식 및 지연 제어 스케줄링 프레임워크를 제안합니다. 구체적으로, 누적 대기 시간과 남은 프리필 작업량을 이용해 동적으로 우선순위를 계산하는 경량 에이징 기반 스케줄링 정책을 설계했습니다. 또한 정적 예산을 목표 시간 제약으로 대체하고 프리필 동시성을 능동적으로 조절하는 **Latency‑Prediction‑Based Request Scheduling (LPRS)**와 **Active Prefill Control (APC)**를 개발했습니다. 우리는 실제 워크로드를 사용해 NVIDIA GPU와 Ascend 가속기에서 스케줄링 프레임워크를 평가했습니다. 결과는 에이징 정책이 평균 종단‑대‑종단 지연을 FCFS 대비 10% 이상 감소시킴을 보여줍니다. 더불어 LPRS와 APC는 P99 꼬리 지연을 크게 낮추고 프리필 단편화를 억제하여 구조적 프리필 제어와 시간적 지연 제약이 근본적으로 상보적임을 확인했습니다. 모든 코드는 Github에 공개되었습니다.
주요 기여
이 논문은 다음 분야의 연구를 제시합니다:
- cs.DC
- cs.PF
방법론
자세한 방법론은 전체 논문을 참고하십시오.
실용적 함의
본 연구는 cs.DC 분야의 발전에 기여합니다.
저자
- Haoxin Liu
- Jiayi Wang
- Yueshen Xu
- Rui Li
논문 정보
- arXiv ID: 2606.09061v1
- 분류: cs.DC, cs.PF
- 발표일: 2026년 6월 8일
- PDF: PDF 다운로드