[Paper] AugServe: 적응형 요청 스케줄링을 위한 증강된 Large Language Model 추론 서빙

발행: (2025년 12월 4일 오전 02:49 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2512.04013v1

개요

이 논문은 AugServe라는 새로운 추론 서빙 프레임워크를 소개한다. 이 프레임워크는 외부 도구(검색, 계산기, API 등)를 호출하며 생성하는 “증강된” 대형 언어 모델(LLM) 워크로드의 속도를 크게 높인다. 요청이 스케줄되는 방식과 토큰 배치가 형성되는 방식을 재고함으로써 AugServe는 대기 지연을 줄이고, 엄격한 지연 SLO를 만족해야 하는 실시간 웹‑앱 경험에 중요한, 제한된 지연 시간 내에 처리할 수 있는 요청 수를 증가시킨다.

주요 기여

  • Two‑stage adaptive scheduling: 먼저 정적 추론 시점 특징(예: 예상 툴 호출 횟수, 토큰 길이)을 사용해 요청 순서를 정하고, 이후 실시간 런타임 메트릭으로 순서를 지속적으로 미세 조정합니다.
  • Dynamic token‑batch sizing: 현재 GPU/CPU 부하와 요청 혼합 상태에 따라 배치 크기를 동적으로 조정하여 기존 서버에서 사용하던 정적 배치‑크기 제한을 대체합니다.
  • Comprehensive evaluation: vLLM 및 InferCept와 같은 최신 서빙 스택에 비해 4.7–33.1배 높은 실효 처리량과 최대 96 % 낮은 첫 토큰 도착 시간(TTFT)을 보여줍니다.
  • Open‑source prototype(또는 최소한 상세 설계): 기존 LLM 서빙 파이프라인에 최소한의 코드 변경만으로 통합할 수 있습니다.

방법론

  1. Feature Extraction (Stage I) – 각 들어오는 요청은 추론 비용에 영향을 미치는 속성을 프로파일링합니다:

    • 예상 툴 호출 횟수
    • 예측 출력 길이 (토큰)
    • 모델별 지연 시간 추정치
      이러한 특징들은 가벼운 우선순위 함수를 통해 큐를 재정렬하는 데 사용되며, “가벼운” 혹은 “빠르게 완료될 수 있는” 요청을 무거운 요청보다 앞에 배치하여 헤드‑오브‑라인 차단을 방지합니다.
  2. Runtime‑aware Re‑ordering (Stage II) – 시스템이 현재 배치를 처리하는 동안, 모니터가 실시간 신호(GPU 메모리 압력, 큐 대기 시간, 실제 토큰 생성 속도)를 수집합니다. 피드백 루프가 우선순위 점수를 업데이트하고, 다음 배치에 들어가기 전에 대기 중인 요청들을 재배열할 수 있습니다.

  3. Dynamic Batching – vLLM에서 흔히 사용하는 고정된 배치당 최대 토큰 수 대신, AugServe는 배치 크기를 지속적으로 조정합니다. 하드웨어가 충분히 활용되지 않을 때는 배치를 확대해 더 많은 토큰을 채우고, 부하가 높을 때는 배치를 축소해 지연 시간을 낮게 유지합니다.

  4. Implementation – 표준 추론 엔진(예: PyTorch + CUDA 커널) 위에 구축되었으며, 인플라이트 토큰을 손실 없이 일시 중지/재개할 수 있는 요청 디스패처와 통합됩니다.

결과 및 발견

지표AugServe vs. vLLMAugServe vs. InferCept
Effective Throughput (requests / sec within SLO)4.7–33.1배 향상3.3–13.2배 향상
Time‑to‑First‑Token (TTFT)‑96.3 % (최대 96 % 빠름)‑95.0 %
Latency SLO Violation Rate테스트 부하에서 거의 0거의 0
GPU Utilization더 안정적이며 평균 활용도 높음평균 활용도 높음

이러한 이점은 트래픽이 급증하고 요청에 많은 툴 호출이 포함될 때 가장 두드러지며, 전통적인 FCFS 큐가 헤드‑오브‑라인 차단으로 심각한 영향을 받는 시나리오에서 특히 효과적입니다.

Practical Implications

  • Web‑scale AI products (chatbots, code assistants, search‑augmented agents) can serve many more concurrent users without over‑provisioning hardware, directly lowering cloud costs.
  • Latency‑critical services (e.g., real‑time recommendation or decision‑support systems) can meet sub‑second SLOs even when the LLM must invoke external APIs, improving user satisfaction.
  • DevOps simplification – Dynamic batching removes the need for manual tuning of batch‑size limits per model or hardware, reducing operational overhead.
  • Compatibility – Because AugServe works as a scheduling layer on top of existing inference runtimes, teams can adopt it without rewriting model code or retraining models.
  • Edge deployment – The adaptive scheduler can be trimmed for smaller GPUs, enabling more efficient on‑device LLM inference for augmented applications.

제한 사항 및 향후 작업

  • 툴 호출 예측 정확도 – Stage I는 요청이 필요로 하는 외부 호출 수를 추정하기 위해 휴리스틱에 의존합니다; 예측 오류는 여전히 최적이 아닌 순서를 초래할 수 있습니다.
  • 재정렬 오버헤드 – 지속적인 우선순위 업데이트는 작은 CPU 비용을 추가합니다; 수천 개의 동시 요청으로 확장하려면 보다 정교한 데이터 구조가 필요할 수 있습니다.
  • 하드웨어 다양성 – 실험은 소수의 GPU 모델에 초점을 맞추고 있습니다; 적응 로직을 이기종 클러스터(CPU 전용, TPU, 다중 노드 설정)로 확장하는 것은 아직 해결되지 않은 과제입니다.
  • 비증강 LLM에 대한 일반화 – 논문은 툴이 증강된 워크로드에 대한 이점을 보여주지만, 순수 텍스트 생성 서비스에 얼마나 적용되는지는 불분명합니다.

향후 연구 방향으로는 시간이 지남에 따라 적응하는 학습 기반 우선순위 함수, 오케스트레이션 프레임워크(Kubernetes, Ray)와의 tighter integration, 그리고 AugServe가 새로운 양자화 및 희소성 기술과 어떻게 상호작용하는지를 탐구하는 것이 포함됩니다.

저자

  • Ying Wang
  • Zhen Jin
  • Jiexiong Xu
  • Wenhai Lin
  • Yiquan Chen
  • Wenzhi Chen

논문 정보

  • arXiv ID: 2512.04013v1
  • 분류: cs.CL
  • 출판일: 2025년 12월 3일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »