[Paper] CONCUR: 혼잡 기반 동시성 제어를 통한 LLM의 고처리량 에이전트형 배치 추론
Source: arXiv - 2601.22705v1
번역할 텍스트를 제공해 주시면 한국어로 번역해 드리겠습니다.
개요
논문에서는 CONCUR라는 경량 제어 레이어를 소개한다. 이는 agentic 워크로드(예: 자율 에이전트, 도구‑사용 봇)를 제공할 때 대규모 언어 모델(LLM) 추론의 처리량을 크게 향상시킨다. GPU 키‑값(KV) 캐시를 공유되고 혼잡이 발생하기 쉬운 자원으로 간주함으로써, CONCUR는 활성 에이전트 수를 동적으로 제한하여 “중간‑단계 스래싱”을 방지한다. 이는 일반적으로 GPU 메모리가 부족해지기 훨씬 전에 캐시 효율성이 붕괴되어 성능이 급격히 저하되는 현상이다.
주요 기여
- 중간 단계 스래싱 식별 – 장시간 실행되는 에이전트가 KV 캐시를 점진적으로 채워 캐시 히트율과 처리량이 급격히 떨어지는, 이전에 문서화되지 않은 현상.
- 에이전트 수준 입장 제어 – 요청당 캐시 제거를 반응적으로 수행하던 방식에서 동시에 실행될 수 있는 에이전트 수를 사전에 조절하는 방식으로 전환.
- CONCUR 제어 알고리즘 – 캐시 압력을 모니터링(예: 히트율, 점유율)하고 실시간으로 활성 에이전트 수를 조정하는 간단한 피드백 기반 루프.
- 기존 서빙 스택과 호환 – CONCUR는 인기 있는 LLM 서빙 프레임워크(예: vLLM, TensorRT‑LLM) 위에 얹혀 모델 변경이나 무거운 커널 수정 없이 동작.
- 실제 모델에 대한 실증적 향상 – Qwen3‑32B에서 최대 4.09× 처리량 향상, DeepSeek‑V3에서 1.9× 향상을 다양한 에이전트 워크로드에서 달성.
Methodology
-
Workload Characterization
- 여러 오픈‑소스 및 상용 에이전트 애플리케이션(코드‑생성 봇, 웹‑검색 에이전트, 다단계 플래너)에서 트레이스를 수집했습니다.
- 각 에이전트의 전체 수명 동안 KV‑캐시 점유율, 히트‑레이트, 토큰당 지연 시간을 측정했습니다.
-
Middle‑Phase Thrashing Diagnosis
- 초기 “워밍‑업” 단계 이후, 에이전트가 긴 KV 히스토리를 축적하면서 GPU에 여유 메모리가 있음에도 불구하고 캐시 히트‑레이트가 급격히 떨어지는 현상을 관찰했습니다.
- 이 성능 저하 현상을 “middle‑phase thrashing”이라고 명명했습니다.
-
Control‑Theoretic Design
- KV 캐시를 네트워크 링크와 유사한 공유 자원으로 모델링했습니다.
- 혼잡 제어 스타일 피드백 루프를 설계했습니다:
- Signal – 캐시 압력 지표(예: 새로운 KV 엔트리 비율 대비 전체 용량, 혹은 최근 히트‑레이트).
- Controller – 목표 에이전트 예산(동시 실행 가능한 최대 에이전트 수)을 계산하는 비례‑적분(PI) 레귤레이터.
- Actuator – 활성 에이전트 수를 목표값에 가깝게 유지하도록 에이전트를 대기시키거나 시작하는 입장 게이트.
-
Implementation
- 표준 LLM 서빙 시스템의 요청 스케줄러에 CONCUR를 통합했습니다.
- 캐시 메트릭을 컨트롤러에 노출하기 위해 가벼운 계측 코드를 추가했습니다.
- 모델 가중치, 토크나이저, 혹은 기본 CUDA 커널에는 아무런 변경을 가하지 않았습니다.
-
Evaluation
- 80‑GB A100 GPU 두 대에서 Qwen3‑32B와 DeepSeek‑V3의 32‑bit 및 16‑bit 양자화 버전을 사용해 벤치마크를 수행했습니다.
- 세 가지 베이스라인과 비교했습니다: (i) 단순 배치 추론, (ii) 정적 최대 배치 크기, (iii) 반응형 캐시 제거.
Results & Findings
| Model | Baseline Throughput (tokens/s) | CONCUR Throughput | Speed‑up |
|---|---|---|---|
| Qwen3‑32B | 12.3 | 50.4 | 4.09× |
| DeepSeek‑V3 | 8.7 | 16.5 | 1.9× |
- Cache hit‑rate stability: CONCUR를 사용할 경우, 히트 비율이 장시간 실행 동안 85 % 이상을 유지했으며, 반면 베이스라인은 연속 추론 30 초 정도 지나면서 40 % 이하로 떨어졌습니다.
- Latency tail reduction: Qwen3‑32B에서 99번째 백분위수 토큰당 지연 시간이 180 ms에서 45 ms로 감소했습니다.
- Memory usage: KV 메모리 피크 사용량이 GPU 용량의 70 % 이내에 머물러, 처리량 향상이 단순히 더 많은 데이터를 적재한 것이 아니라 캐시 재사용 효율 개선에 기인함을 확인했습니다.
- Scalability: 제어 루프가 스케줄링 결정당 <0.5 ms의 오버헤드만 추가하여 토큰 생성 시간에 비해 무시할 수준입니다.
Practical Implications
- Higher ROI on existing GPU fleets – 기업은 동일한 하드웨어에서 최대 4배까지 추론 처리량을 끌어올릴 수 있어 비용이 많이 드는 업그레이드를 미룰 수 있습니다.
- More responsive agents – 낮은 꼬리 지연 시간은 다단계 에이전트(예: 계획‑후‑행동 루프)가 작업을 더 빨리 완료하게 하여 챗 어시스턴트, 코드 완성 도구, 자율 에이전트에서 사용자 경험을 향상시킵니다.
- Simplified ops – CONCUR가 기존 서빙 스택에 플러그인 형태로 작동하므로 DevOps 팀은 모델 재학습이나 추론 파이프라인 재작성 없이 도입할 수 있습니다.
- Cost‑effective scaling in the cloud – 클라우드 제공업체는 동일한 가격대에서 더 높은 처리량의 LLM 엔드포인트를 제공하거나 “고처리량 에이전시” 인스턴스에 프리미엄을 부과할 수 있습니다.
- Enables richer agentic behaviors – 개발자는 캐시 충돌을 우려하지 않고 병렬 에이전트 수(예: 사용자당 봇)를 안전하게 늘릴 수 있어 대규모 다중 에이전트 시뮬레이션 및 협업 AI 시스템의 문을 열 수 있습니다.
제한 사항 및 향후 작업
- 캐시 메트릭 선택 – 현재 컨트롤러는 단일 집계 압력 신호에 의존합니다; 보다 정교한 메트릭(예: 에이전트별 KV 성장 패턴)으로 정밀도를 향상시킬 수 있습니다.
- 워크로드 다양성 – 실험은 두 개의 32‑B 모델에 초점을 맞췄으며; 더 큰 모델(예: 70‑B 이상)이나 혼합 정밀도 파이프라인으로 확장하면 새로운 병목 현상이 드러날 수 있습니다.
- 분산 추론 – CONCUR는 단일 GPU의 KV 캐시를 위해 설계되었습니다; 제어 로직을 다중 GPU 또는 다중 노드 배포로 확장하는 것은 아직 해결되지 않은 과제입니다.
- 이론적 보장 – PI 컨트롤러가 경험적으로 잘 작동하지만, 매우 폭발적인 요청 도착 상황에서의 형식적 안정성 분석은 향후 연구 과제로 남아 있습니다.
전반적으로 CONCUR는 혼잡 제어 아이디어를 차용함으로써 최신 LLM 에이전트에 상당한 성능 향상을 가져올 수 있음을 보여주며, 개발자들이 더 빠르고 확장 가능한 AI 서비스를 제공할 수 있는 실용적인 경로를 제시합니다.
저자
- Qiaoling Chen
- Zhisheng Ye
- Tian Tang
- Peng Sun
- Boyu Tian
- Guoteng Wang
- Shenggui Li
- Yonggang Wen
- Zhenhua Han
- Tianwei Zhang
논문 정보
- arXiv ID: 2601.22705v1
- 카테고리: cs.DC
- 출판일: 2026년 1월 30일
- PDF: PDF 다운로드