[Paper] CONCUR:通过基于拥塞的并发控制实现 LLM 的高吞吐量代理式批量推理

发布: (2026年1月30日 GMT+8 16:27)
8 分钟阅读
原文: arXiv

Source: arXiv - 2601.22705v1

概述

本文介绍了 CONCUR,一种轻量级控制层,在为 agentic 工作负载(例如自主代理、使用工具的机器人)提供服务时,显著提升大语言模型(LLM)推理的吞吐量。通过将 GPU 键值(KV)缓存视为共享且易受拥塞的资源,CONCUR 动态限制活跃代理的数量,以避免“中期抖动”,这是一种缓存效率崩溃,通常会在 GPU 内存耗尽之前就显著拖慢性能。

关键贡献

  • 识别中期抖动(middle‑phase thrashing) – 这是一种此前未记录的现象,长期运行的代理会逐渐填满 KV 缓存,导致缓存命中率和吞吐量急剧下降。
  • 代理级别的准入控制 – 从被动的按请求缓存驱逐转向主动调节同时运行的代理数量。
  • CONCUR 控制算法 – 一个简单的反馈驱动循环,实时监控缓存压力(例如命中率、占用率),并动态调整活跃代理的数量。
  • 兼容现有服务栈 – CONCUR 可叠加在流行的 LLM 服务框架(如 vLLM、TensorRT‑LLM)之上,无需模型修改或大型内核改动。
  • 真实模型的实证提升 – 在 Qwen3‑32B 上实现最高 4.09× 的吞吐量提升,在 DeepSeek‑V3 上实现 1.9× 的提升,适用于多种代理工作负载。

Source:

方法论

  1. 工作负载特征化

    • 收集了多个开源和商业代理应用(代码生成机器人、网络搜索代理、多步骤规划器)的追踪数据。
    • 测量了 KV 缓存占用、命中率以及每个 token 的延迟,覆盖每个代理的整个生命周期。
  2. 中期抖动诊断

    • 观察到在初始“热身”阶段之后,随着代理累积了长 KV 历史记录,缓存命中率会急剧下降,即使 GPU 仍有空闲显存。
    • 将这种退化称为“中期抖动”。
  3. 控制理论设计

    • 将 KV 缓存建模为类似网络链路的共享资源。
    • 设计了 拥塞控制式反馈回路
      • 信号 – 缓存压力度量(例如,新 KV 条目占总容量的比例,或近期命中率)。
      • 控制器 – 一个比例‑积分(PI)调节器,用于计算目标 代理预算(最大并发代理数)。
      • 执行器 – 入场门,通过阻塞或启动代理,使活动代理数保持在目标值附近。
  4. 实现

    • 将 CONCUR 集成到标准 LLM 服务系统的请求调度器中。
    • 添加轻量级仪表,以向控制器暴露缓存度量。
    • 未对模型权重、分词器或底层 CUDA 核心进行任何修改。
  5. 评估

    • 在两块 80 GB A100 GPU 上使用 Qwen3‑32B 与 DeepSeek‑V3 的 32‑bit 与 16‑bit 量化版本进行基准测试。
    • 与三种基线进行比较:(i) 朴素批量推理,(ii) 静态最大批量大小,(iii) 响应式缓存驱逐。

结果与发现

模型基准吞吐量 (tokens/s)CONCUR 吞吐量加速比
Qwen3‑32B12.350.44.09×
DeepSeek‑V38.716.51.9×
  • 缓存命中率稳定性:使用 CONCUR 时,命中率在长时间运行中始终保持在 85 % 以上,而基线在连续推理约 30 秒后跌至 40 % 以下。
  • 延迟尾部降低:在 Qwen3‑32B 上,99 分位每 token 延迟从 180 ms 降至 45 ms。
  • 内存使用:峰值 KV 内存保持在 GPU 容量的 70 % 以内,确认吞吐量提升来源于更好的缓存复用,而不是仅仅容纳更多数据。
  • 可扩展性:控制循环每次调度决策增加的开销小于 0.5 ms,与 token 生成时间相比可以忽略不计。

实际影响

  • 在现有 GPU 车队上实现更高 ROI – 公司可以在相同硬件上挤出高达 4× 的推理吞吐量,延迟昂贵的升级。
  • 更快速响应的代理 – 更低的尾部延迟意味着多步骤代理(例如计划‑再‑执行循环)可以更快完成任务,提升聊天助手、代码补全工具和自主代理的用户体验。
  • 运维简化 – 由于 CONCUR 作为现有服务堆栈的插件运行,DevOps 团队可以在不重新训练模型或重写推理管道的情况下采用它。
  • 云端成本效益扩展 – 云服务提供商可以在相同价格层级提供更高吞吐量的 LLM 端点,或对 “高吞吐量代理” 实例收取溢价。
  • 实现更丰富的代理行为 – 开发者可以安全地增加并行代理的数量(例如每用户的机器人),而无需担心缓存冲突,从而开启大规模多代理仿真和协作 AI 系统的大门。

限制与未来工作

  • 缓存度量选择 – 当前控制器依赖单一的聚合压力信号;更细致的度量(例如每个代理的 KV 增长模式)可能提升精度。
  • 工作负载多样性 – 实验聚焦于两个 32‑B 模型;扩展到更大的模型(如 70‑B+)或混合精度流水线可能会暴露新的瓶颈。
  • 分布式推理 – CONCUR 设计用于单 GPU 的 KV 缓存;将控制逻辑扩展到多 GPU 或多节点部署仍是一个待解决的挑战。
  • 理论保证 – 虽然 PI 控制器在实验证明效果良好,但对高度突发的请求到达进行形式化的稳定性分析仍留待未来研究。

总体而言,CONCUR 证明了借鉴拥塞控制的思路可以为现代 LLM 代理释放出显著的性能提升,为开发者提供了一条实现更快、更具可扩展性的 AI 服务的务实路径。

作者

  • Qiaoling Chen
  • Zhisheng Ye
  • Tian Tang
  • Peng Sun
  • Boyu Tian
  • Guoteng Wang
  • Shenggui Li
  • Yonggang Wen
  • Zhenhua Han
  • Tianwei Zhang

论文信息

  • arXiv ID: 2601.22705v1
  • 类别: cs.DC
  • 出版时间: 2026年1月30日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »