[Paper] AugServe:用于增强型大语言模型推理服务的自适应请求调度

发布: (2025年12月4日 GMT+8 01:49)
7 min read
原文: arXiv

Source: arXiv - 2512.04013v1

概览

本文介绍了 AugServe,一种全新的推理服务框架,能够显著加速“增强型”大型语言模型(LLM)工作负载——即在生成过程中调用外部工具(搜索、计算器、API 等)的 LLM。通过重新思考请求调度方式和 token 批次的形成方式,AugServe 减少了排队延迟,并提升了在严格延迟 SLO 下能够满足的请求数量,这对实时网页应用体验至关重要。

关键贡献

  • 两阶段自适应调度:首先使用静态推理时特征(如预期工具调用次数、token 长度)对请求进行排序,然后利用实时运行时指标持续优化排序。
  • 动态 token 批次大小:根据当前 GPU/CPU 负载和请求组合动态调整批次大小,取代现有服务器使用的静态批次大小限制。
  • 全面评估:相较于 vLLM、InferCept 等最先进的服务堆栈,展示了 4.7–33.1 倍的有效吞吐提升以及最高 96 % 的首 token 时间(TTFT)降低。
  • 开源原型(或至少提供详细设计):可在现有 LLM 服务流水线中以最小代码改动集成。

方法论

  1. 特征提取(阶段 I) – 对每个进入的请求进行属性剖析,这些属性会影响推理成本:

    • 预期的工具调用次数
    • 预测的输出长度(token)
    • 模型特定的延迟估计

    这些特征被送入轻量级优先级函数,重新排序队列,将“轻量”或“快速完成”的请求提前,避免重负载请求导致的头部阻塞。

  2. 运行时感知重排序(阶段 II) – 当系统处理当前批次时,监控器收集实时信号(GPU 内存压力、队列等待时间、实际 token 生成速度)。反馈回路更新优先级分数,并可能在请求进入下一个批次前重新洗牌。

  3. 动态批次 – 与 vLLM 常用的固定最大 token 数批次不同,AugServe 持续调节批次大小。当硬件利用率不足时,扩大批次以装载更多 token;负载过重时,缩小批次以保持低延迟。

  4. 实现 – 基于标准推理引擎(如 PyTorch + CUDA kernel)构建,并与能够在不丢失飞行 token 的情况下暂停/恢复批次的请求调度器集成。

结果与发现

指标AugServe vs. vLLMAugServe vs. InferCept
有效吞吐量(在 SLO 内的请求 / 秒)4.7–33.1× 提升3.3–13.2× 提升
首 token 时间(TTFT)‑96.3 %(最高提升 96 %)‑95.0 %
延迟 SLO 违规率在测试负载下几乎为零在测试负载下几乎为零
GPU 利用率更稳定,平均利用率更高平均利用率更高

在突发流量以及请求涉及大量工具调用的场景下,收益最为显著——传统的先来先服务(FCFS)队列在此类情况下会出现严重的头部阻塞。

实际意义

  • Web 规模 AI 产品(聊天机器人、代码助手、搜索增强代理)可以在不额外采购硬件的情况下服务更多并发用户,直接降低云成本。
  • 延迟关键服务(如实时推荐或决策支持系统)即使在 LLM 必须调用外部 API 时,也能满足亚秒级 SLO,提升用户满意度。
  • 运维简化 – 动态批次消除了针对每个模型或硬件手动调节批次大小限制的需求,降低了运营负担。
  • 兼容性 – AugServe 作为现有推理运行时之上的调度层,无需重写模型代码或重新训练模型,即可被团队采纳。
  • 边缘部署 – 可裁剪的自适应调度器适用于较小 GPU,帮助在设备端实现更高效的增强型 LLM 推理。

局限性与未来工作

  • 工具调用预测准确性 – 阶段 I 依赖启发式方法估计请求需要的外部调用次数,预测误差仍可能导致次优排序。
  • 重排序开销 – 持续的优先级更新会产生一定的 CPU 开销;在成千上万并发请求的场景下可能需要更复杂的数据结构。
  • 硬件多样性 – 实验主要在少数 GPU 型号上进行;将自适应逻辑扩展到异构集群(仅 CPU、TPU、多节点)仍是未解挑战。
  • 对非增强型 LLM 的泛化 – 虽然论文展示了对工具增强工作负载的收益,但对纯文本生成服务的提升幅度尚不明确。

未来的研究方向包括:基于学习的优先级函数随时间自适应、与编排框架(Kubernetes、Ray)更紧密的集成,以及探索 AugServe 与新兴量化、稀疏技术的交互效果。

作者

  • Ying Wang
  • Zhen Jin
  • Jiexiong Xu
  • Wenhai Lin
  • Yiquan Chen
  • Wenzhi Chen

论文信息

  • arXiv ID: 2512.04013v1
  • 分类: cs.CL
  • 发布日期: 2025 年 12 月 3 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »

2025年AI的未来

!Forem 标志https://media2.dev.to/dynamic/image/width=65,height=,fit=scale-down,gravity=auto,format=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%...