[Paper] CONCUR:通过基于拥塞的并发控制实现 LLM 的高吞吐量代理式批量推理
发布: (2026年1月30日 GMT+8 16:27)
8 分钟阅读
原文: arXiv
Source: arXiv - 2601.22705v1
概述
本文介绍了 CONCUR,一种轻量级控制层,在为 agentic 工作负载(例如自主代理、使用工具的机器人)提供服务时,显著提升大语言模型(LLM)推理的吞吐量。通过将 GPU 键值(KV)缓存视为共享且易受拥塞的资源,CONCUR 动态限制活跃代理的数量,以避免“中期抖动”,这是一种缓存效率崩溃,通常会在 GPU 内存耗尽之前就显著拖慢性能。
关键贡献
- 识别中期抖动(middle‑phase thrashing) – 这是一种此前未记录的现象,长期运行的代理会逐渐填满 KV 缓存,导致缓存命中率和吞吐量急剧下降。
- 代理级别的准入控制 – 从被动的按请求缓存驱逐转向主动调节同时运行的代理数量。
- CONCUR 控制算法 – 一个简单的反馈驱动循环,实时监控缓存压力(例如命中率、占用率),并动态调整活跃代理的数量。
- 兼容现有服务栈 – CONCUR 可叠加在流行的 LLM 服务框架(如 vLLM、TensorRT‑LLM)之上,无需模型修改或大型内核改动。
- 真实模型的实证提升 – 在 Qwen3‑32B 上实现最高 4.09× 的吞吐量提升,在 DeepSeek‑V3 上实现 1.9× 的提升,适用于多种代理工作负载。
Source: …
方法论
-
工作负载特征化
- 收集了多个开源和商业代理应用(代码生成机器人、网络搜索代理、多步骤规划器)的追踪数据。
- 测量了 KV 缓存占用、命中率以及每个 token 的延迟,覆盖每个代理的整个生命周期。
-
中期抖动诊断
- 观察到在初始“热身”阶段之后,随着代理累积了长 KV 历史记录,缓存命中率会急剧下降,即使 GPU 仍有空闲显存。
- 将这种退化称为“中期抖动”。
-
控制理论设计
- 将 KV 缓存建模为类似网络链路的共享资源。
- 设计了 拥塞控制式反馈回路:
- 信号 – 缓存压力度量(例如,新 KV 条目占总容量的比例,或近期命中率)。
- 控制器 – 一个比例‑积分(PI)调节器,用于计算目标 代理预算(最大并发代理数)。
- 执行器 – 入场门,通过阻塞或启动代理,使活动代理数保持在目标值附近。
-
实现
- 将 CONCUR 集成到标准 LLM 服务系统的请求调度器中。
- 添加轻量级仪表,以向控制器暴露缓存度量。
- 未对模型权重、分词器或底层 CUDA 核心进行任何修改。
-
评估
- 在两块 80 GB A100 GPU 上使用 Qwen3‑32B 与 DeepSeek‑V3 的 32‑bit 与 16‑bit 量化版本进行基准测试。
- 与三种基线进行比较:(i) 朴素批量推理,(ii) 静态最大批量大小,(iii) 响应式缓存驱逐。
结果与发现
| 模型 | 基准吞吐量 (tokens/s) | CONCUR 吞吐量 | 加速比 |
|---|---|---|---|
| Qwen3‑32B | 12.3 | 50.4 | 4.09× |
| DeepSeek‑V3 | 8.7 | 16.5 | 1.9× |
- 缓存命中率稳定性:使用 CONCUR 时,命中率在长时间运行中始终保持在 85 % 以上,而基线在连续推理约 30 秒后跌至 40 % 以下。
- 延迟尾部降低:在 Qwen3‑32B 上,99 分位每 token 延迟从 180 ms 降至 45 ms。
- 内存使用:峰值 KV 内存保持在 GPU 容量的 70 % 以内,确认吞吐量提升来源于更好的缓存复用,而不是仅仅容纳更多数据。
- 可扩展性:控制循环每次调度决策增加的开销小于 0.5 ms,与 token 生成时间相比可以忽略不计。
实际影响
- 在现有 GPU 车队上实现更高 ROI – 公司可以在相同硬件上挤出高达 4× 的推理吞吐量,延迟昂贵的升级。
- 更快速响应的代理 – 更低的尾部延迟意味着多步骤代理(例如计划‑再‑执行循环)可以更快完成任务,提升聊天助手、代码补全工具和自主代理的用户体验。
- 运维简化 – 由于 CONCUR 作为现有服务堆栈的插件运行,DevOps 团队可以在不重新训练模型或重写推理管道的情况下采用它。
- 云端成本效益扩展 – 云服务提供商可以在相同价格层级提供更高吞吐量的 LLM 端点,或对 “高吞吐量代理” 实例收取溢价。
- 实现更丰富的代理行为 – 开发者可以安全地增加并行代理的数量(例如每用户的机器人),而无需担心缓存冲突,从而开启大规模多代理仿真和协作 AI 系统的大门。
限制与未来工作
- 缓存度量选择 – 当前控制器依赖单一的聚合压力信号;更细致的度量(例如每个代理的 KV 增长模式)可能提升精度。
- 工作负载多样性 – 实验聚焦于两个 32‑B 模型;扩展到更大的模型(如 70‑B+)或混合精度流水线可能会暴露新的瓶颈。
- 分布式推理 – CONCUR 设计用于单 GPU 的 KV 缓存;将控制逻辑扩展到多 GPU 或多节点部署仍是一个待解决的挑战。
- 理论保证 – 虽然 PI 控制器在实验证明效果良好,但对高度突发的请求到达进行形式化的稳定性分析仍留待未来研究。
总体而言,CONCUR 证明了借鉴拥塞控制的思路可以为现代 LLM 代理释放出显著的性能提升,为开发者提供了一条实现更快、更具可扩展性的 AI 服务的务实路径。
作者
- Qiaoling Chen
- Zhisheng Ye
- Tian Tang
- Peng Sun
- Boyu Tian
- Guoteng Wang
- Shenggui Li
- Yonggang Wen
- Zhenhua Han
- Tianwei Zhang
论文信息
- arXiv ID: 2601.22705v1
- 类别: cs.DC
- 出版时间: 2026年1月30日
- PDF: 下载 PDF