[Paper] AugServe:自适应请求调度用于增强大型语言模型推理服务
Source: arXiv - 2512.04013v1
概述
本文介绍了 AugServe,一个全新的推理服务框架,能够显著加速“增强型”大语言模型(LLM)工作负载——在生成过程中调用外部工具(搜索、计算器、API 等)的 LLM。通过重新思考请求调度方式和 token 批次的形成,AugServe 减少了排队延迟,并提升了在严格的延迟 SLO(服务水平目标)内能够满足的请求数量,这对于实时网页应用体验至关重要。
关键贡献
- 两阶段自适应调度,首先使用静态推理时特征(例如,预期工具调用次数、令牌长度)对请求进行排序,然后通过实时运行时指标持续优化顺序。
- 动态令牌批量大小,根据当前 GPU/CPU 负载和请求混合进行调整,取代现有服务器使用的静态批量大小限制。
- 全面评估显示,与 vLLM、InferCept 等最先进的服务堆栈相比,吞吐量提升 4.7–33.1 倍,首次令牌时间(TTFT)降低最高达 96 %。
- 开源原型(或至少详细设计),可在最小代码改动的情况下集成到现有 LLM 服务流水线中。
方法论
-
特征提取(Stage I) – 对每个进入的请求进行属性画像,以影响推理成本的因素包括:
- 预期的工具调用次数
- 预测的输出长度(标记数)
- 模型特定的延迟估计
这些特征会喂入一个轻量级的优先级函数,重新排序队列,将“轻量”或“快速完成”的请求提前,避免因重请求导致的排队阻塞。
-
运行时感知的重新排序(Stage II) – 当系统处理当前批次时,监控器会收集实时信号(GPU 内存压力、队列等待时间、实际标记生成速度)。反馈回路会更新优先级分数,并可能在请求进入下一个批次前重新排列待处理请求。
-
动态批处理 – 与常见的 vLLM 采用固定的每批最大标记数不同,AugServe 会持续调节批次大小。当硬件利用率不足时,扩大批次以装入更多标记;在负载较重时,缩小批次以保持低延迟。
-
实现 – 基于标准推理引擎(例如 PyTorch + CUDA kernels)构建,并与能够在不丢失飞行标记的情况下暂停/恢复批次的请求调度器集成。
结果与发现
| Metric | AugServe vs. vLLM | AugServe vs. InferCept |
|---|---|---|
| Effective Throughput (requests / sec within SLO) | 4.7–33.1× improvement | 3.3–13.2× improvement |
| Time‑to‑First‑Token (TTFT) | ‑96.3 % (up to 96 % faster) | ‑95.0 % |
| Latency SLO Violation Rate | Near‑zero under tested loads | Near‑zero |
| GPU Utilization | More stable, higher average utilization | Higher average utilization |
这些收益在突发流量以及请求涉及大量工具调用的情况下最为显著——在这些场景中,传统的FCFS队列会遭受严重的队首阻塞。
实际影响
- Web‑scale AI 产品(聊天机器人、代码助手、搜索增强代理)能够在不超配硬件的情况下服务更多并发用户,直接降低云成本。
- 对延迟敏感的服务(例如实时推荐或决策支持系统),即使 LLM 必须调用外部 API,也能实现亚秒级 SLO,提高用户满意度。
- DevOps 简化 – 动态批处理消除了对每个模型或硬件手动调节批大小限制的需求,降低运维负担。
- 兼容性 – 因为 AugServe 作为现有推理运行时之上的调度层运行,团队可以在不重写模型代码或重新训练模型的情况下采用它。
- 边缘部署 – 自适应调度器可以裁剪用于较小的 GPU,使增强应用的设备端 LLM 推理更高效。
限制与未来工作
- 工具调用预测准确性 – 第 I 阶段依赖启发式方法估计请求需要的外部调用次数;预测错误仍可能导致次优排序。
- 重新排序的开销 – 持续的优先级更新会带来少量 CPU 开销;在成千上万的并发请求下可能需要更复杂的数据结构。
- 硬件多样性 – 实验仅聚焦于少数 GPU 型号;将自适应逻辑扩展到异构集群(仅 CPU、TPU、多节点部署)仍是未解挑战。
- 对非增强型 LLM 的泛化 – 虽然论文展示了对工具增强工作负载的收益,但尚不清楚这些收益在纯文本生成服务中的适用程度。
未来的研究方向包括基于学习的优先级函数随时间自适应、与编排框架(Kubernetes、Ray)更紧密的集成,以及探索 AugServe 与新兴量化和稀疏技术的交互方式。
作者
- Ying Wang
- Zhen Jin
- Jiexiong Xu
- Wenhai Lin
- Yiquan Chen
- Wenzhi Chen
论文信息
- arXiv ID: 2512.04013v1
- 类别: cs.CL
- 发表日期: 2025年12月3日
- PDF: Download PDF