[Paper] AugServe:自适应请求调度用于增强大型语言模型推理服务

发布: (2025年12月4日 GMT+8 01:49)
7 min read
原文: arXiv

Source: arXiv - 2512.04013v1

概述

本文介绍了 AugServe,一个全新的推理服务框架,能够显著加速“增强型”大语言模型(LLM)工作负载——在生成过程中调用外部工具(搜索、计算器、API 等)的 LLM。通过重新思考请求调度方式和 token 批次的形成,AugServe 减少了排队延迟,并提升了在严格的延迟 SLO(服务水平目标)内能够满足的请求数量,这对于实时网页应用体验至关重要。

关键贡献

  • 两阶段自适应调度,首先使用静态推理时特征(例如,预期工具调用次数、令牌长度)对请求进行排序,然后通过实时运行时指标持续优化顺序。
  • 动态令牌批量大小,根据当前 GPU/CPU 负载和请求混合进行调整,取代现有服务器使用的静态批量大小限制。
  • 全面评估显示,与 vLLM、InferCept 等最先进的服务堆栈相比,吞吐量提升 4.7–33.1 倍,首次令牌时间(TTFT)降低最高达 96 %。
  • 开源原型(或至少详细设计),可在最小代码改动的情况下集成到现有 LLM 服务流水线中。

方法论

  1. 特征提取(Stage I) – 对每个进入的请求进行属性画像,以影响推理成本的因素包括:

    • 预期的工具调用次数
    • 预测的输出长度(标记数)
    • 模型特定的延迟估计
      这些特征会喂入一个轻量级的优先级函数,重新排序队列,将“轻量”或“快速完成”的请求提前,避免因重请求导致的排队阻塞。
  2. 运行时感知的重新排序(Stage II) – 当系统处理当前批次时,监控器会收集实时信号(GPU 内存压力、队列等待时间、实际标记生成速度)。反馈回路会更新优先级分数,并可能在请求进入下一个批次前重新排列待处理请求。

  3. 动态批处理 – 与常见的 vLLM 采用固定的每批最大标记数不同,AugServe 会持续调节批次大小。当硬件利用率不足时,扩大批次以装入更多标记;在负载较重时,缩小批次以保持低延迟。

  4. 实现 – 基于标准推理引擎(例如 PyTorch + CUDA kernels)构建,并与能够在不丢失飞行标记的情况下暂停/恢复批次的请求调度器集成。

结果与发现

MetricAugServe vs. vLLMAugServe vs. InferCept
Effective Throughput (requests / sec within SLO)4.7–33.1× improvement3.3–13.2× improvement
Time‑to‑First‑Token (TTFT)‑96.3 % (up to 96 % faster)‑95.0 %
Latency SLO Violation RateNear‑zero under tested loadsNear‑zero
GPU UtilizationMore stable, higher average utilizationHigher average utilization

这些收益在突发流量以及请求涉及大量工具调用的情况下最为显著——在这些场景中,传统的FCFS队列会遭受严重的队首阻塞。

实际影响

  • Web‑scale AI 产品(聊天机器人、代码助手、搜索增强代理)能够在不超配硬件的情况下服务更多并发用户,直接降低云成本。
  • 对延迟敏感的服务(例如实时推荐或决策支持系统),即使 LLM 必须调用外部 API,也能实现亚秒级 SLO,提高用户满意度。
  • DevOps 简化 – 动态批处理消除了对每个模型或硬件手动调节批大小限制的需求,降低运维负担。
  • 兼容性 – 因为 AugServe 作为现有推理运行时之上的调度层运行,团队可以在不重写模型代码或重新训练模型的情况下采用它。
  • 边缘部署 – 自适应调度器可以裁剪用于较小的 GPU,使增强应用的设备端 LLM 推理更高效。

限制与未来工作

  • 工具调用预测准确性 – 第 I 阶段依赖启发式方法估计请求需要的外部调用次数;预测错误仍可能导致次优排序。
  • 重新排序的开销 – 持续的优先级更新会带来少量 CPU 开销;在成千上万的并发请求下可能需要更复杂的数据结构。
  • 硬件多样性 – 实验仅聚焦于少数 GPU 型号;将自适应逻辑扩展到异构集群(仅 CPU、TPU、多节点部署)仍是未解挑战。
  • 对非增强型 LLM 的泛化 – 虽然论文展示了对工具增强工作负载的收益,但尚不清楚这些收益在纯文本生成服务中的适用程度。

未来的研究方向包括基于学习的优先级函数随时间自适应、与编排框架(Kubernetes、Ray)更紧密的集成,以及探索 AugServe 与新兴量化和稀疏技术的交互方式。

作者

  • Ying Wang
  • Zhen Jin
  • Jiexiong Xu
  • Wenhai Lin
  • Yiquan Chen
  • Wenzhi Chen

论文信息

  • arXiv ID: 2512.04013v1
  • 类别: cs.CL
  • 发表日期: 2025年12月3日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »