[Paper] AugServe:用于增强型大语言模型推理服务的自适应请求调度
Source: arXiv - 2512.04013v1
概览
本文介绍了 AugServe,一种全新的推理服务框架,能够显著加速“增强型”大型语言模型(LLM)工作负载——即在生成过程中调用外部工具(搜索、计算器、API 等)的 LLM。通过重新思考请求调度方式和 token 批次的形成方式,AugServe 减少了排队延迟,并提升了在严格延迟 SLO 下能够满足的请求数量,这对实时网页应用体验至关重要。
关键贡献
- 两阶段自适应调度:首先使用静态推理时特征(如预期工具调用次数、token 长度)对请求进行排序,然后利用实时运行时指标持续优化排序。
- 动态 token 批次大小:根据当前 GPU/CPU 负载和请求组合动态调整批次大小,取代现有服务器使用的静态批次大小限制。
- 全面评估:相较于 vLLM、InferCept 等最先进的服务堆栈,展示了 4.7–33.1 倍的有效吞吐提升以及最高 96 % 的首 token 时间(TTFT)降低。
- 开源原型(或至少提供详细设计):可在现有 LLM 服务流水线中以最小代码改动集成。
方法论
-
特征提取(阶段 I) – 对每个进入的请求进行属性剖析,这些属性会影响推理成本:
- 预期的工具调用次数
- 预测的输出长度(token)
- 模型特定的延迟估计
这些特征被送入轻量级优先级函数,重新排序队列,将“轻量”或“快速完成”的请求提前,避免重负载请求导致的头部阻塞。
-
运行时感知重排序(阶段 II) – 当系统处理当前批次时,监控器收集实时信号(GPU 内存压力、队列等待时间、实际 token 生成速度)。反馈回路更新优先级分数,并可能在请求进入下一个批次前重新洗牌。
-
动态批次 – 与 vLLM 常用的固定最大 token 数批次不同,AugServe 持续调节批次大小。当硬件利用率不足时,扩大批次以装载更多 token;负载过重时,缩小批次以保持低延迟。
-
实现 – 基于标准推理引擎(如 PyTorch + CUDA kernel)构建,并与能够在不丢失飞行 token 的情况下暂停/恢复批次的请求调度器集成。
结果与发现
| 指标 | AugServe vs. vLLM | AugServe vs. InferCept |
|---|---|---|
| 有效吞吐量(在 SLO 内的请求 / 秒) | 4.7–33.1× 提升 | 3.3–13.2× 提升 |
| 首 token 时间(TTFT) | ‑96.3 %(最高提升 96 %) | ‑95.0 % |
| 延迟 SLO 违规率 | 在测试负载下几乎为零 | 在测试负载下几乎为零 |
| GPU 利用率 | 更稳定,平均利用率更高 | 平均利用率更高 |
在突发流量以及请求涉及大量工具调用的场景下,收益最为显著——传统的先来先服务(FCFS)队列在此类情况下会出现严重的头部阻塞。
实际意义
- Web 规模 AI 产品(聊天机器人、代码助手、搜索增强代理)可以在不额外采购硬件的情况下服务更多并发用户,直接降低云成本。
- 延迟关键服务(如实时推荐或决策支持系统)即使在 LLM 必须调用外部 API 时,也能满足亚秒级 SLO,提升用户满意度。
- 运维简化 – 动态批次消除了针对每个模型或硬件手动调节批次大小限制的需求,降低了运营负担。
- 兼容性 – AugServe 作为现有推理运行时之上的调度层,无需重写模型代码或重新训练模型,即可被团队采纳。
- 边缘部署 – 可裁剪的自适应调度器适用于较小 GPU,帮助在设备端实现更高效的增强型 LLM 推理。
局限性与未来工作
- 工具调用预测准确性 – 阶段 I 依赖启发式方法估计请求需要的外部调用次数,预测误差仍可能导致次优排序。
- 重排序开销 – 持续的优先级更新会产生一定的 CPU 开销;在成千上万并发请求的场景下可能需要更复杂的数据结构。
- 硬件多样性 – 实验主要在少数 GPU 型号上进行;将自适应逻辑扩展到异构集群(仅 CPU、TPU、多节点)仍是未解挑战。
- 对非增强型 LLM 的泛化 – 虽然论文展示了对工具增强工作负载的收益,但对纯文本生成服务的提升幅度尚不明确。
未来的研究方向包括:基于学习的优先级函数随时间自适应、与编排框架(Kubernetes、Ray)更紧密的集成,以及探索 AugServe 与新兴量化、稀疏技术的交互效果。
作者
- Ying Wang
- Zhen Jin
- Jiexiong Xu
- Wenhai Lin
- Yiquan Chen
- Wenzhi Chen
论文信息
- arXiv ID: 2512.04013v1
- 分类: cs.CL
- 发布日期: 2025 年 12 月 3 日
- PDF: Download PDF