[논문] 탐욕적 청킹을 넘어: SLO 기반 슬라이딩 윈도우 스케줄링으로 LLM 추론

발행: (2026년 6월 4일 PM 06:36 GMT+9)
4 분 소요
원문: arXiv

출처: arXiv - 2606.05933v1

개요

대형 언어 모델(LLM) 온라인 서비스에서 인터랙티브 애플리케이션이 급속히 성장함에 따라, 높은 시스템 처리량을 유지하면서 사용자 인지 지연 시간을 보장하는 것이 추론 스케줄링의 핵심 과제로 떠올랐습니다. 기존 LLM 서비스 시스템은 거친 수준의 출력 제약에 의존해 다수 요청 간의 자원 경쟁을 효과적으로 처리하기 어렵고, 그 결과 자원 활용 효율이 낮으며 세밀한 서비스 품질(QoS) 차별화를 지원하는 데 한계가 있습니다. 우리는 온라인 LLM 추론을 위한 슬라이딩 윈도우 기반 SLO‑Aware 스케줄링 시스템인 SlidingServe를 제안합니다. SlidingServe는 배치 지연 시간을 예측하는 경량 모델을 설계해 배치 실행 시간을 추정합니다. 이를 바탕으로 SlidingServe는 SlidingChunker를 활용해 현재 반복과 다음 반복의 정보를 결합해 동적 청킹을 수행하고, 엄격한 QoS 보장을 유지하면서 전체 시스템 처리량을 향상시킵니다. 또한 SlidingServe는 Multi-Level Priority Sorter를 도입해 후보 요청을 정렬함으로써 공정성과 효율성 사이의 균형을 맞춥니다. 더불어 같은 배치 내 여러 요청이 SLO 위반 위험에 처했을 때, SlidingServe는 BatchConstructor를 사용해 동적 프로그래밍으로 현재 라운드에서 실행할 요청 집합을 선택하여 중요한 요청의 SLO 위반 위험을 완화합니다. 평가 결과, SlidingServe는 다양한 부하 조건에서 기존 고급 스케줄링 시스템에 비해 서비스 용량을 최대 30% 향상시키고, 과부하 추론 상황에서는 SLO 위반 비율을 16%‑53% 감소시켰습니다.

주요 기여

본 논문은 다음 분야의 연구를 다룹니다.

  • cs.DC

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

이 연구는 cs.DC 분야의 발전에 기여합니다.

저자

  • Yuansheng Chen
  • Yue Zhang
  • Xuan Mo
  • Weigang Wu
  • Jialun Li

논문 정보

  • arXiv ID: 2606.05933v1
  • 분류: cs.DC
  • 발표일: 2026년 6월 4일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »