[Paper] AlignedServe: Prefix-aware Batching을 조정하여 High-throughput 및 Computing-efficient LLM Serving System 구축

발행: 2주 전 (2026년 5월 22일 PM 06:00 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2605.23389v1

번역할 텍스트가 제공되지 않았습니다. 번역을 원하는 본문을 알려주시면 도와드리겠습니다.

개요

대형 언어 모델(LLM) 추론은 챗봇부터 코드 어시스턴트에 이르기까지 많은 현대 AI 서비스의 핵심이다. 기존 서빙 스택은 많은 요청을 하나의 GPU 배치에 묶는 데 초점을 맞추지만, 종종 숨겨진 지연 원인인 iteration‑level bubbles(요청 간 KV‑캐시 길이 불일치로 인한) 를 간과한다. 논문 AlignedServe는 유사한 캐시 히스토리를 가진 요청을 함께 묶는 prefix‑aware 배칭 전략을 도입하여 이러한 버블을 크게 줄이고, 실제 워크로드에서 2× 높은 처리량과 7× 낮은 지연 시간을 제공한다.

주요 기여

Prefix‑aware batching: KV‑cache(이미 생성된 토큰 수)의 길이에 따라 요청을 정렬하는 새로운 스케줄러로, 반복당 정체를 최소화합니다.
Hybrid CPU‑GPU memory design: 대량의 진행 중인 요청을 CPU RAM에 보관하여 GPU가 부족해지지 않으면서 항상 잘 정렬된 배치를 찾을 수 있게 합니다.
Batch‑level scheduling policy: GPU 점유율을 높게 유지하면서 prefix 정렬 제약을 만족하도록 배치를 동적으로 재구성합니다.
GPU‑Prefetch‑For‑GPU architecture: 한 GPU가 다른 GPU를 위해 KV‑cache 데이터를 미리 로드하여, 기존에 디코드 루프를 지배하던 CPU‑to‑GPU 전송 지연을 크게 줄입니다.
Comprehensive evaluation: 합성 벤치마크와 실제 작업 부하 모두에서 선도적인 서빙 프레임워크(예: vLLM, FasterTransformer) 대비 디코딩 처리량을 최대 1.98× 향상하고 지연 시간을 7.4× 감소시켰음을 보여줍니다.

Source: …

Methodology

디코드 루프 프로파일링 – 저자들은 먼저 토큰 생성 중 시간이 어디에 소비되는지 측정했습니다. 배치에 KV‑cache 깊이가 크게 다른 요청들이 포함될 경우, GPU가 가장 긴 캐시 요청이 행렬 곱셈을 마칠 때까지 기다려야 하며, 이로 인해 “iteration‑level bubbles”가 발생한다는 것을 발견했습니다.
프리픽스 클러스터링 – 요청을 프리픽스 길이 (이미 생성된 토큰 수) 기준으로 그룹화합니다. 스케줄러는 대기 중인 큐를 지속적으로 재정렬하여 각 배치에 포함된 요청들의 KV‑cache 크기 차이가 작은 임계값(예: ±2 토큰) 이하가 되도록 합니다.
대규모 요청 버퍼링 – KV‑cache 저장을 위해 충분한 CPU RAM을 할당함으로써 시스템은 수천 개의 대기 요청을 메모리에 유지할 수 있습니다. 이 버퍼는 급증하는 트래픽 상황에서도 스케줄러가 잘 정렬된 배치를 구성할 충분한 후보를 제공한다.
배치‑레벨 동적 재구성 – GPU 활용도가 낮아지면, 시스템은 작은 정렬 배치를 병합하거나 과도하게 큰 배치를 분할하여 항상 프리픽스 유사성 제약을 유지합니다.
GPU‑to‑GPU 프리패치 – 매 토큰마다 KV‑cache를 CPU에서 GPU로 이동시키는 대신, 전용 “프리패치 GPU”가 필요한 캐시 슬라이스를 직접 “컴퓨트 GPU”로 스트리밍합니다. 이를 통해 PCIe 전송 시간을 최대 80 %까지 단축합니다.

모든 구성 요소는 기존 서빙 스택에 가벼운 확장으로 구현되어 주요 하드웨어 플랫폼 전반에 걸쳐 이 접근 방식을 포터블하게 만들 수 있습니다.

결과 및 발견

지표	기준 (vLLM)	AlignedServe	개선
디코딩 처리량 (tokens/s)	12.3k	24.4k	+98 %
99번째 백분위 지연 시간 (ms)	210	28	‑87 %
GPU 활용도 (평균)	62 %	95 %	+53 %
CPU‑to‑GPU KV‑cache 전송 시간 (ms)	4.8	0.9	‑81 %

주요 요점

KV‑cache 길이를 정렬하면 전체 배치를 지연시키는 느린 토큰의 “롱테일”을 제거합니다.
추가 CPU 메모리 비용은 적당합니다 (≈1 k 동시 요청당 2 GB) 그리고 GPU 효율성에서 크게 보상됩니다.
프리패치 아키텍처는 다중 GPU 서버에서도 잘 확장되어 GPU 수가 증가해도 이점을 유지합니다.

실용적 함의

SaaS AI 제공업체를 위한 높은 QPS – 기업은 동일한 GPU 풀에서 동시에 두 배의 채팅 또는 완성 요청을 처리할 수 있어 인프라 비용을 절감합니다.
대화형 앱을 위한 낮은 지연 시간 – 최종 사용자는 더 빠른 응답을 경험하게 되며, 이는 실시간 코딩 어시스턴트, 검색 보강, 음성 기반 에이전트에 필수적입니다.
간소화된 용량 계획 – AlignedServe가 GPU 활용도를 포화 상태에 가깝게 유지하기 때문에 운영자는 확장 필요성을 보다 정확히 예측하고 과다 프로비저닝을 방지할 수 있습니다.
기존 파이프라인과의 호환성 – 이 프레임워크는 인기 있는 추론 서버(e.g., vLLM, TGI)에 최소한의 코드 변경만으로 연결되므로, 팀은 모델 로딩이나 요청 처리 로직을 다시 작성하지 않고도 도입할 수 있습니다.
엣지 배포 가능성 – CPU 중심의 버퍼링 전략 덕분에, 충분한 호스트 RAM과 결합하면 RTX 3080과 같은 비교적 소형 GPU 카드도 데이터센터 수준에 근접한 처리량을 달성할 수 있습니다.

제한 사항 및 향후 작업

Memory footprint – 대량의 KV‑caches를 CPU RAM에 저장하면 매우 긴 컨텍스트 윈도우(예: >8 k 토큰)의 경우 비용이 크게 증가할 수 있습니다.
Workload dependence – 요청 길이가 크게 다양할 때 가장 큰 이득이 나타나며, 프롬프트가 일관되게 짧은 워크로드에서는 개선 효과가 작게 나타납니다.
Hardware assumptions – GPU‑Prefetch‑For‑GPU 설계는 빠른 인터‑GPU 링크(NVLink/PCIe‑Gen4)에 의존합니다; 오래된 인터커넥트에서는 지연 시간 이점이 감소합니다.
Future directions suggested by the authors include adaptive cache compression to shrink the CPU buffer, extending the scheduler to handle multi‑modal models (e.g., vision‑language), and exploring reinforcement‑learning‑based batch formation for even tighter latency guarantees.

저자

Fengyao Bai
Hongbin Zhang
Zhitao Chen
Jiangsu Du
Zhiguang Chen
Yutong Lu

논문 정보

arXiv ID: 2605.23389v1
Categories: cs.DC
Published: 2026년 5월 22일
PDF: Download PDF

[Paper] AlignedServe: Prefix-aware Batching을 조정하여 High-throughput 및 Computing-efficient LLM Serving System 구축

개요

주요 기여

Methodology

결과 및 발견

실용적 함의

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] 과학 워크플로우에서 CFD 기반 PIVAEs를 통한 에너지 효율 향상

[Paper] SDNator는 또 다른 SDN 컨트롤러가 아니다: 사이버 물리 시스템에서 확장 가능한 데이터 기반 제어 구현

[논문] RocksDB에서 학습 인덱싱을 위한 실용적 접근: 최소 시스템 수정으로 목표 최적화

[Paper] HyperParallel-MoE: 멀티코어 인터리브 스케줄링을 통한 Ascend NPU에서의 빠른 MoE 훈련