[Paper] AugServe: 적응형 요청 스케줄링을 위한 증강 대형 언어 모델 추론 서빙
Source: arXiv - 2512.04013v1
개요
이 논문은 AugServe라는 새로운 추론 서빙 프레임워크를 소개한다. AugServe는 외부 도구(검색, 계산기, API 등)를 호출하는 “증강” 대형 언어 모델(LLM) 워크로드의 추론 속도를 크게 높인다. 요청 스케줄링 방식과 토큰 배치 형성을 재고함으로써, AugServe는 대기 지연을 줄이고 엄격한 지연 SLO 내에서 처리할 수 있는 요청 수를 크게 증가시킨다. 이는 실시간 웹 애플리케이션 경험에 중요한 요소이다.
주요 기여
- 두 단계 적응형 스케줄링: 먼저 정적 추론‑시간 특징(예: 예상 도구 호출 수, 토큰 길이)을 사용해 요청을 정렬하고, 이후 실시간 런타임 메트릭으로 순서를 지속적으로 미세 조정한다.
- 동적 토큰‑배치 크기 조정: 현재 GPU/CPU 부하와 요청 혼합에 따라 배치 크기를 조절하여 기존 서버에서 사용되는 정적 배치‑크기 제한을 대체한다.
- 포괄적 평가: vLLM 및 InferCept와 같은 최신 서빙 스택에 비해 4.7–33.1배 높은 실제 처리량과 최대 96 % 낮은 첫 토큰 도달 시간(TTFT)을 보여준다.
- 오픈소스 프로토타입(또는 상세 설계) 제공: 최소한의 코드 변경만으로 기존 LLM 서빙 파이프라인에 통합할 수 있다.
방법론
-
특징 추출 (Stage I) – 각 들어오는 요청을 추론 비용에 영향을 미치는 속성으로 프로파일링한다:
- 예상 도구 호출 횟수
- 예측 출력 길이(토큰)
- 모델‑별 지연 시간 추정치
이러한 특징은 가벼운 우선순위 함수에 입력되어 대기열을 재정렬한다. “가벼운” 혹은 “빠르게 완료될” 요청을 무거운 요청보다 앞에 배치해 선두 차단(head‑of‑line blocking)을 방지한다.
-
런타임‑인식 재정렬 (Stage II) – 시스템이 현재 배치를 처리하는 동안 모니터가 실시간 신호(GPU 메모리 압력, 대기열 대기 시간, 실제 토큰 생성 속도)를 수집한다. 피드백 루프가 우선순위 점수를 업데이트하고, 다음 배치에 들어가기 전에 대기 중인 요청을 다시 섞을 수 있다.
-
동적 배칭 – vLLM에서 흔히 사용하는 고정 최대 토큰 수 대신 AugServe는 배치 크기를 지속적으로 조정한다. 하드웨어가 충분히 활용되지 않을 때는 배치를 확대해 더 많은 토큰을 채우고, 부하가 높을 때는 배치를 축소해 지연을 낮춘다.
-
구현 – 표준 추론 엔진(예: PyTorch + CUDA 커널) 위에 구축되며, 배치를 중단/재개할 수 있는 요청 디스패처와 통합되어 비행 중인 토큰을 손실 없이 처리한다.
결과 및 발견
| Metric | AugServe vs. vLLM | AugServe vs. InferCept |
|---|---|---|
| Effective Throughput (SLO 내 요청 / 초) | 4.7–33.1× 향상 | 3.3–13.2× 향상 |
| Time‑to‑First‑Token (TTFT) | ‑96.3 % (최대 96 % 빠름) | ‑95.0 % |
| Latency SLO Violation Rate | 테스트 부하에서 거의 0 | 테스트 부하에서 거의 0 |
| GPU Utilization | 더 안정적이고 평균 활용도 상승 | 평균 활용도 상승 |
이러한 이득은 트래픽이 급증하고 요청에 다수의 도구 호출이 포함될 때 가장 두드러진다—전통적인 FCFS 대기열이 심각한 선두 차단을 겪는 상황이다.
실용적 함의
- 웹 규모 AI 제품(챗봇, 코드 어시스턴트, 검색‑증강 에이전트)은 하드웨어 과다 프로비저닝 없이도 더 많은 동시 사용자를 지원할 수 있어 클라우드 비용을 직접 절감한다.
- 지연‑민감 서비스(실시간 추천 또는 의사결정 지원 시스템 등)는 외부 API 호출이 필요하더라도 서브‑초 SLO를 만족시켜 사용자 만족도를 높인다.
- DevOps 단순화 – 동적 배칭 덕분에 모델이나 하드웨어별 배치‑크기 제한을 수동으로 조정할 필요가 없어 운영 부담이 감소한다.
- 호환성 – AugServe는 기존 추론 런타임 위에 스케줄링 레이어로 동작하므로, 모델 코드를 재작성하거나 재학습하지 않고도 도입할 수 있다.
- 엣지 배포 – 적응형 스케줄러를 작은 GPU에 맞게 축소하면, 증강 애플리케이션을 위한 온‑디바이스 LLM 추론 효율성을 높일 수 있다.
제한점 및 향후 연구
- 도구‑호출 예측 정확도 – Stage I은 요청이 필요로 할 외부 호출 수를 추정하기 위해 휴리스틱에 의존한다. 예측이 빗나가면 비효율적인 순서가 발생할 수 있다.
- 재정렬 오버헤드 – 지속적인 우선순위 업데이트가 소량의 CPU 비용을 추가한다; 수천 개 동시 요청을 처리하려면 더 정교한 자료구조가 필요할 수 있다.
- 하드웨어 다양성 – 실험은 몇 가지 GPU 모델에 한정되었으며, 이질적인 클러스터(CPU‑전용, TPU, 다중 노드 등)에 적응 로직을 확장하는 것은 아직 과제로 남아 있다.
- 비증강 LLM에 대한 일반화 – 논문은 도구‑증강 워크로드에서의 이점을 보여주지만, 순수 텍스트 생성 서비스에 얼마나 적용되는지는 불분명하다.
향후 연구 방향으로는 시간이 지남에 따라 적응하는 학습 기반 우선순위 함수, 쿠버네티스·Ray와 같은 오케스트레이션 프레임워크와의 tighter integration, 그리고 최신 양자화·희소화 기법과 AugServe가 어떻게 상호 작용하는지 탐색하는 것이 있다.
저자
- Ying Wang
- Zhen Jin
- Jiexiong Xu
- Wenhai Lin
- Yiquan Chen
- Wenzhi Chen
논문 정보
- arXiv ID: 2512.04013v1
- Categories: cs.CL
- Published: December 3, 2025
- PDF: Download PDF