[Paper] CONCUR：通过基于拥塞的并发控制实现 LLM 的高吞吐量代理式批量推理

发布: 1周前 (2026年1月30日 GMT+8 16:27)

8 分钟阅读

原文: arXiv

Source: arXiv - 2601.22705v1

概述

本文介绍了 CONCUR，一种轻量级控制层，在为 agentic 工作负载（例如自主代理、使用工具的机器人）提供服务时，显著提升大语言模型（LLM）推理的吞吐量。通过将 GPU 键值（KV）缓存视为共享且易受拥塞的资源，CONCUR 动态限制活跃代理的数量，以避免“中期抖动”，这是一种缓存效率崩溃，通常会在 GPU 内存耗尽之前就显著拖慢性能。

关键贡献

识别中期抖动（middle‑phase thrashing） – 这是一种此前未记录的现象，长期运行的代理会逐渐填满 KV 缓存，导致缓存命中率和吞吐量急剧下降。
代理级别的准入控制 – 从被动的按请求缓存驱逐转向主动调节同时运行的代理数量。
CONCUR 控制算法 – 一个简单的反馈驱动循环，实时监控缓存压力（例如命中率、占用率），并动态调整活跃代理的数量。
兼容现有服务栈 – CONCUR 可叠加在流行的 LLM 服务框架（如 vLLM、TensorRT‑LLM）之上，无需模型修改或大型内核改动。
真实模型的实证提升 – 在 Qwen3‑32B 上实现最高 4.09× 的吞吐量提升，在 DeepSeek‑V3 上实现 1.9× 的提升，适用于多种代理工作负载。

Source: …

方法论

工作负载特征化
- 收集了多个开源和商业代理应用（代码生成机器人、网络搜索代理、多步骤规划器）的追踪数据。
- 测量了 KV 缓存占用、命中率以及每个 token 的延迟，覆盖每个代理的整个生命周期。
中期抖动诊断
- 观察到在初始“热身”阶段之后，随着代理累积了长 KV 历史记录，缓存命中率会急剧下降，即使 GPU 仍有空闲显存。
- 将这种退化称为“中期抖动”。
控制理论设计
- 将 KV 缓存建模为类似网络链路的共享资源。
- 设计了 拥塞控制式反馈回路：
  - 信号 – 缓存压力度量（例如，新 KV 条目占总容量的比例，或近期命中率）。
  - 控制器 – 一个比例‑积分（PI）调节器，用于计算目标 代理预算（最大并发代理数）。
  - 执行器 – 入场门，通过阻塞或启动代理，使活动代理数保持在目标值附近。
实现
- 将 CONCUR 集成到标准 LLM 服务系统的请求调度器中。
- 添加轻量级仪表，以向控制器暴露缓存度量。
- 未对模型权重、分词器或底层 CUDA 核心进行任何修改。
评估
- 在两块 80 GB A100 GPU 上使用 Qwen3‑32B 与 DeepSeek‑V3 的 32‑bit 与 16‑bit 量化版本进行基准测试。
- 与三种基线进行比较：(i) 朴素批量推理，(ii) 静态最大批量大小，(iii) 响应式缓存驱逐。

结果与发现

模型	基准吞吐量 (tokens/s)	CONCUR 吞吐量	加速比
Qwen3‑32B	12.3	50.4	4.09×
DeepSeek‑V3	8.7	16.5	1.9×

缓存命中率稳定性：使用 CONCUR 时，命中率在长时间运行中始终保持在 85 % 以上，而基线在连续推理约 30 秒后跌至 40 % 以下。
延迟尾部降低：在 Qwen3‑32B 上，99 分位每 token 延迟从 180 ms 降至 45 ms。
内存使用：峰值 KV 内存保持在 GPU 容量的 70 % 以内，确认吞吐量提升来源于更好的缓存复用，而不是仅仅容纳更多数据。
可扩展性：控制循环每次调度决策增加的开销小于 0.5 ms，与 token 生成时间相比可以忽略不计。

实际影响

在现有 GPU 车队上实现更高 ROI – 公司可以在相同硬件上挤出高达 4× 的推理吞吐量，延迟昂贵的升级。
更快速响应的代理 – 更低的尾部延迟意味着多步骤代理（例如计划‑再‑执行循环）可以更快完成任务，提升聊天助手、代码补全工具和自主代理的用户体验。
运维简化 – 由于 CONCUR 作为现有服务堆栈的插件运行，DevOps 团队可以在不重新训练模型或重写推理管道的情况下采用它。
云端成本效益扩展 – 云服务提供商可以在相同价格层级提供更高吞吐量的 LLM 端点，或对 “高吞吐量代理” 实例收取溢价。
实现更丰富的代理行为 – 开发者可以安全地增加并行代理的数量（例如每用户的机器人），而无需担心缓存冲突，从而开启大规模多代理仿真和协作 AI 系统的大门。

限制与未来工作

缓存度量选择 – 当前控制器依赖单一的聚合压力信号；更细致的度量（例如每个代理的 KV 增长模式）可能提升精度。
工作负载多样性 – 实验聚焦于两个 32‑B 模型；扩展到更大的模型（如 70‑B+）或混合精度流水线可能会暴露新的瓶颈。
分布式推理 – CONCUR 设计用于单 GPU 的 KV 缓存；将控制逻辑扩展到多 GPU 或多节点部署仍是一个待解决的挑战。
理论保证 – 虽然 PI 控制器在实验证明效果良好，但对高度突发的请求到达进行形式化的稳定性分析仍留待未来研究。

总体而言，CONCUR 证明了借鉴拥塞控制的思路可以为现代 LLM 代理释放出显著的性能提升，为开发者提供了一条实现更快、更具可扩展性的 AI 服务的务实路径。

作者

Qiaoling Chen
Zhisheng Ye
Tian Tang
Peng Sun
Boyu Tian
Guoteng Wang
Shenggui Li
Yonggang Wen
Zhenhua Han
Tianwei Zhang

论文信息

arXiv ID: 2601.22705v1
类别: cs.DC
出版时间: 2026年1月30日
PDF: 下载 PDF

[Paper] CONCUR：通过基于拥塞的并发控制实现 LLM 的高吞吐量代理式批量推理

概述

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] ERA：用于群组管理 CRDT 中对立管理员的纪元解析仲裁

[Paper] 协调电网频率调节服务与数据中心负载灵活性

[Paper] Belief Propagation 在稀疏连接的因子图中收敛到高斯分布

[Paper] 自适应概率天际线查询处理在分布式边缘计算中的深度强化学习