[논문] 청크 프리필 LLM 서빙을 위한 공정성 인식·지연 제어 스케줄링

발행: 3일 전 (2026년 6월 8일 PM 02:55 GMT+9)

4 분 소요

원문: arXiv

출처: arXiv - 2606.09061v1

개요

대형 언어 모델(LLM)이 점점 더 다양한 워크로드와 함께 배포됨에 따라, 청크 기반 프리필 실행이 주류 서빙 아키텍처로 떠올랐습니다. 이러한 환경에서 스케줄링 공정성과 지연 시간 안정성을 균형 있게 유지하는 것은 매우 중요합니다; 그렇지 않으면 헤드‑오브‑라인 차단과 요청 기아가 심각해져 사용자 경험이 저하됩니다. 그러나 기존 시스템은 경직된 선입선출(FCFS) 정책과 정적인 토큰 예산에 의존해 공정성 저하와 예측 불가능한 지연 지터를 초래합니다. 이러한 문제를 해결하고자 우리는 청크‑프리필 LLM 엔진을 위한 공정성 인식 및 지연 제어 스케줄링 프레임워크를 제안합니다. 구체적으로, 누적 대기 시간과 남은 프리필 작업량을 이용해 동적으로 우선순위를 계산하는 경량 에이징 기반 스케줄링 정책을 설계했습니다. 또한 정적 예산을 목표 시간 제약으로 대체하고 프리필 동시성을 능동적으로 조절하는 **Latency‑Prediction‑Based Request Scheduling (LPRS)**와 **Active Prefill Control (APC)**를 개발했습니다. 우리는 실제 워크로드를 사용해 NVIDIA GPU와 Ascend 가속기에서 스케줄링 프레임워크를 평가했습니다. 결과는 에이징 정책이 평균 종단‑대‑종단 지연을 FCFS 대비 10% 이상 감소시킴을 보여줍니다. 더불어 LPRS와 APC는 P99 꼬리 지연을 크게 낮추고 프리필 단편화를 억제하여 구조적 프리필 제어와 시간적 지연 제약이 근본적으로 상보적임을 확인했습니다. 모든 코드는 Github에 공개되었습니다.

주요 기여

이 논문은 다음 분야의 연구를 제시합니다:

cs.DC
cs.PF

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

본 연구는 cs.DC 분야의 발전에 기여합니다.

저자

Haoxin Liu
Jiayi Wang
Yueshen Xu
Rui Li

논문 정보

arXiv ID: 2606.09061v1
분류: cs.DC, cs.PF
발표일: 2026년 6월 8일
PDF: PDF 다운로드

[논문] 청크 프리필 LLM 서빙을 위한 공정성 인식·지연 제어 스케줄링

개요

주요 기여

방법론

실용적 함의

저자

논문 정보

관련 글

[논문] 이기종 엣지 클러스터에서 스케줄링 알고리즘의 공정한 비교: 연속 적응 벤치마크

[논문] 분산 시스템에서 효율적이고 견고한 온라인 순위 학습

[논문] 대형 언어 모델이 포팅한 해양 모델: FESOM2(Fortran→C→C++/Kokkos) 경험과 교훈

[논문] 타일 기반 가속기에서 DNN 기반 엔드투엔드 자율주행 시스템을 위한 격리 인식 스케줄링 프레임워크