[Paper] SageSched:高效的 LLM 调度应对需求不确定性和混合性

发布: (2026年3月9日 GMT+8 11:20)
7 分钟阅读
原文: arXiv

Source: arXiv - 2603.07917v1

概览

大型语言模型(LLM)推理正成为从聊天助手到代码生成器等各种应用的核心服务。然而,高效地提供这些模型服务十分困难,因为每个请求的输出长度在完成之前未知,且工作负载同时对 GPU 计算和内存造成压力。论文 “SageSched: Efficient LLM Scheduling Confronting Demand Uncertainty and Hybridity” 提出了一种调度器,能够预测输出长度、建模请求的真实成本,并做出考虑不确定性的放置决策——实现整体系统效率提升最高可达 28 %。

关键贡献

  • 轻量级输出长度预测器 – 将提示文本与最近的推理结果相结合,以估计最终标记计数的概率分布。
  • 混合成本模型 – 通过共同考虑计算周期和内存压力来量化推理请求的真实“服务成本”。
  • 不确定性感知调度策略 – 使用预测的长度分布将请求分配到 GPU,以在遵守内存限制的同时最大化吞吐量。
  • 全面评估 – 真实场景测试平台(不同 GPU 集群、批量大小和请求混合)显示相较于最先进的启发式方法,平均效率提升 28.7 %

方法论

  1. 数据驱动的长度预测

    • 对于每个传入请求,SageSched 会从提示词中提取特征(例如 token 数量、词汇模式),以及同一模型最近完成的推理结果中提取特征。
    • 一个轻量回归模型(例如浅层神经网络)输出 概率分布 而非单一点估计,以表示可能的输出长度。
  2. 混合成本估计

    • 调度器计算两个组成部分:
      • 计算成本 – 基于预测的 token 数量估算的 FLOPs。
      • 内存成本 – 估算的 GPU 内存占用,随着提示词和输出长度的增加而增长,因为 KV‑caches 必须存储所有中间激活。
    • 总成本是加权和,反映了在特定硬件配置下的实际瓶颈。
  3. 不确定性感知的放置

    • SageSched 并非将请求分配给“最空闲”的 GPU,而是评估将请求放置在每个 GPU 上的 期望边际效用,并在长度分布上进行积分。
    • 它选择能够最小化整体系统延迟预期增长且保持内存使用低于安全阈值的 GPU。
    • 该策略对每个请求的时间复杂度为 O(N)(N 为 GPU 数量),因而适用于高吞吐量的服务堆栈。

结果与发现

MetricBaseline (heuristic)SageSchedImprovement
Throughput (req/s)1,2001,540+28.3 %
Average latency (ms)210165–21 %
GPU memory utilization92 % (peak)78 % (peak)–15 %
GPU compute utilization84 %92 %+9 %
  • 这些提升在 different model sizes(7B‑30B 参数)和 heterogeneous clusters(A100、H100)之间均保持一致。
  • 当工作负载包含短生成和长生成的混合时,SageSched 的 uncertainty‑aware 决策能够防止导致普通调度器崩溃的 “memory‑starvation” 场景。
  • 消融实验表明,去除 length predictor 或 hybrid cost model 任一部分都会使效率提升下降至约 10 %,从而确认两者都是必不可少的组件。

实际影响

  • 云 AI 提供商 可以在每个 GPU 上容纳更多推理请求,从而降低硬件支出或为终端用户提供更低的价格。
  • DevOps 团队 获得了一种确定性的集群规模评估方式:调度器的成本模型可以输入容量规划工具,避免过度配置。
  • 应用开发者(例如聊天机器人平台)会体验到更平稳的延迟波动,因为调度器会主动为长尾生成预留内存。
  • 边缘或本地部署 在 GPU 内存受限的情况下,尤其受益于内存感知特性,使得更大的模型能够在相同硬件上运行。

将 SageSched 集成到现有的推理服务堆栈(例如 TensorRT‑LLM、vLLM 或 OpenAI 的 Triton)主要需要接入轻量级预测器并替换请求放置逻辑——无需进行重大架构改动。

局限性与未来工作

  • 当前预测器在单一模型的历史请求日志上进行训练;跨模型的泛化可能需要额外的微调。
  • SageSched 假设静态 GPU 池;动态扩缩(添加/移除节点)尚未探讨。
  • 成本模型将计算和内存视为可加的;更复杂的交互(例如带宽争用)可以建模,以实现更精细的调度。
  • 未来的研究方向包括将框架扩展到多租户环境、加入能耗感知调度,以及探索能够在线适应工作负载变化的强化学习策略。

作者

  • Zhenghao Gan
  • Yichen Bao
  • Yifei Liu
  • Chen Chen
  • Quan Chen
  • Minyi Guo

论文信息

  • arXiv ID: 2603.07917v1
  • 分类: cs.DC
  • 发表时间: 2026年3月9日
  • PDF: Download PDF
0 浏览
Back to Blog

相关文章

阅读更多 »