[Paper] AugServe：自适应请求调度用于增强大型语言模型推理服务

发布: 2个月前 (2025年12月4日 GMT+8 01:49)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.04013v1

概述

本文介绍了 AugServe，一个全新的推理服务框架，能够显著加速“增强型”大语言模型（LLM）工作负载——在生成过程中调用外部工具（搜索、计算器、API 等）的 LLM。通过重新思考请求调度方式和 token 批次的形成，AugServe 减少了排队延迟，并提升了在严格的延迟 SLO（服务水平目标）内能够满足的请求数量，这对于实时网页应用体验至关重要。

关键贡献

两阶段自适应调度，首先使用静态推理时特征（例如，预期工具调用次数、令牌长度）对请求进行排序，然后通过实时运行时指标持续优化顺序。
动态令牌批量大小，根据当前 GPU/CPU 负载和请求混合进行调整，取代现有服务器使用的静态批量大小限制。
全面评估显示，与 vLLM、InferCept 等最先进的服务堆栈相比，吞吐量提升 4.7–33.1 倍，首次令牌时间（TTFT）降低最高达 96 %。
开源原型（或至少详细设计），可在最小代码改动的情况下集成到现有 LLM 服务流水线中。

方法论

特征提取（Stage I） – 对每个进入的请求进行属性画像，以影响推理成本的因素包括：
- 预期的工具调用次数
- 预测的输出长度（标记数）
- 模型特定的延迟估计
  这些特征会喂入一个轻量级的优先级函数，重新排序队列，将“轻量”或“快速完成”的请求提前，避免因重请求导致的排队阻塞。
运行时感知的重新排序（Stage II） – 当系统处理当前批次时，监控器会收集实时信号（GPU 内存压力、队列等待时间、实际标记生成速度）。反馈回路会更新优先级分数，并可能在请求进入下一个批次前重新排列待处理请求。
动态批处理 – 与常见的 vLLM 采用固定的每批最大标记数不同，AugServe 会持续调节批次大小。当硬件利用率不足时，扩大批次以装入更多标记；在负载较重时，缩小批次以保持低延迟。
实现 – 基于标准推理引擎（例如 PyTorch + CUDA kernels）构建，并与能够在不丢失飞行标记的情况下暂停/恢复批次的请求调度器集成。

结果与发现

Metric	AugServe vs. vLLM	AugServe vs. InferCept
Effective Throughput (requests / sec within SLO)	4.7–33.1× improvement	3.3–13.2× improvement
Time‑to‑First‑Token (TTFT)	‑96.3 % (up to 96 % faster)	‑95.0 %
Latency SLO Violation Rate	Near‑zero under tested loads	Near‑zero
GPU Utilization	More stable, higher average utilization	Higher average utilization

这些收益在突发流量以及请求涉及大量工具调用的情况下最为显著——在这些场景中，传统的FCFS队列会遭受严重的队首阻塞。

实际影响

Web‑scale AI 产品（聊天机器人、代码助手、搜索增强代理）能够在不超配硬件的情况下服务更多并发用户，直接降低云成本。
对延迟敏感的服务（例如实时推荐或决策支持系统），即使 LLM 必须调用外部 API，也能实现亚秒级 SLO，提高用户满意度。
DevOps 简化 – 动态批处理消除了对每个模型或硬件手动调节批大小限制的需求，降低运维负担。
兼容性 – 因为 AugServe 作为现有推理运行时之上的调度层运行，团队可以在不重写模型代码或重新训练模型的情况下采用它。
边缘部署 – 自适应调度器可以裁剪用于较小的 GPU，使增强应用的设备端 LLM 推理更高效。

限制与未来工作

工具调用预测准确性 – 第 I 阶段依赖启发式方法估计请求需要的外部调用次数；预测错误仍可能导致次优排序。
重新排序的开销 – 持续的优先级更新会带来少量 CPU 开销；在成千上万的并发请求下可能需要更复杂的数据结构。
硬件多样性 – 实验仅聚焦于少数 GPU 型号；将自适应逻辑扩展到异构集群（仅 CPU、TPU、多节点部署）仍是未解挑战。
对非增强型 LLM 的泛化 – 虽然论文展示了对工具增强工作负载的收益，但尚不清楚这些收益在纯文本生成服务中的适用程度。

未来的研究方向包括基于学习的优先级函数随时间自适应、与编排框架（Kubernetes、Ray）更紧密的集成，以及探索 AugServe 与新兴量化和稀疏技术的交互方式。

作者

Ying Wang
Zhen Jin
Jiexiong Xu
Wenhai Lin
Yiquan Chen
Wenzhi Chen

论文信息

arXiv ID: 2512.04013v1
类别: cs.CL
发表日期: 2025年12月3日
PDF: Download PDF

[Paper] AugServe：自适应请求调度用于增强大型语言模型推理服务

概述

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

据报道，SoftBank 与 Nvidia 正在洽谈以 140 亿美元为 Skild AI 提供资金，几乎使其价值翻三倍

Google的 AI 试穿应用 Doppl 添加了可购物的发现流

Google 表示没有‘计划’在 Gemini 应用中投放广告

Gemini for Home 更新已在部分第三方 Google Assistant 扬声器上运行