[Paper] EWSJF:面向混合工作负载 LLM 推理的自适应调度器与混合分区

发布: (2026年1月29日 GMT+8 22:14)
8 分钟阅读
原文: arXiv

Source: arXiv - 2601.21758v1

概述

大型语言模型(LLM)服务平台必须同时处理两种截然不同的流量:需要即时响应的短小交互查询,以及对延迟容忍度更高但要求高吞吐量的长批处理请求。论文 EWSJF: An Adaptive Scheduler with Hybrid Partitioning for Mixed‑Workload LLM Inference 提出了一种新的请求级调度器,能够在运行时学习工作负载,并动态将请求路由到最合适的执行路径。这样既降低了交互查询的尾部延迟,又提升了整体硬件利用率。

关键贡献

  • Refine‑and‑Prune partitioning – 一种无监督算法,能够在没有任何先前工作负载分析的情况下,自动将进入的请求分组为性能同质的集群。
  • Dynamic Queue Routing – 一个轻量级运行时组件,根据请求的估计“有效工作量”将其分配到相应的集群。
  • Density‑Weighted Scoring – 一种新颖的优先级函数,将紧迫性(例如剩余 token 数)与公平性相结合,防止长作业被饿死,同时仍然偏好短作业。
  • Bayesian Meta‑Optimization – 一个闭环调优器,利用实时的延迟和吞吐量指标持续调整分区阈值和评分权重。
  • Integration with vLLM – 作者将 EWSJF 嵌入开源的 vLLM 推理引擎,并展示了相较于传统先来先服务(FCFS),短请求的吞吐量提升超过 30 %,首次 token 时间(TTFT)降低至最高 4 倍。

方法论

  1. 工作负载观察 – 当请求到达时,调度器提取简单特征(令牌长度、模型版本、请求类型)并监控它们的执行延迟。

  2. 无监督分组(精炼‑与‑剪枝) – 使用聚类步骤(例如高斯混合模型)随后进行剪枝阶段,系统发现请求在延迟‑工作比率上相似的“密集”区域。这些区域形成共享相同执行特征的队列

  3. 路由逻辑 – 当新请求到来时,轻量级分类器根据其当前有效工作估计(剩余令牌 ÷ 预期吞吐量)预测哪个队列能提供最佳服务。

  4. 优先级评分 – 在每个队列内部,请求按照密度加权得分排序:

    [ \text{score} = \frac{w_{\text{urgency}}}{\text{remaining_tokens}} + w_{\text{fairness}} \times \text{queue_density} ]

    权重经过调优,使得非常短的查询能够跳到前面,而较长的任务仍能获得进展。

  5. 贝叶斯元优化 – 贝叶斯优化器将评分权重和聚类超参数视为潜在变量。它定期抽样新配置,在真实流量上进行短期评估,并更新后验分布以收敛到最佳设置。

所有组件位于低层 GPU 调度器的上游,这意味着它们可以直接嵌入任何现有的 LLM 服务堆栈,而无需重写内核层的调度逻辑。

结果与发现

指标FCFS(基线)EWSJF(论文)
端到端吞吐量(tokens / s)1.00×(基线)+30 %
平均 TTFT(≤ 64‑token 查询)120 ms≈ 30 ms(≈ 4× 更快)
第 99 百分位延迟(交互式)500 ms≈ 180 ms
GPU 利用率(平均)68 %≈ 85 %

关键要点

  • 通过将短作业和长作业分配到自适应队列,调度器消除了 FCFS 中常见的排头阻塞。
  • 贝叶斯调优器能够快速适应工作负载的变化(例如突发的批处理作业),无需人工重新配置。
  • 硬件利用率更高,因为长作业可以一起打包执行,而短作业则能立即获得空闲计算槽位。

实际影响

  • LLM SaaS 提供商 可以集成 EWSJF,以满足交互式聊天的严格 SLA,同时仍最大化批处理收入。
  • 边缘推理平台(例如设备端助手)受益于更低的 TTFT,提升用户体验且无需更大的 GPU。
  • DevOps 工具:贝叶斯元优化器可以以简单的 API 形式公开,允许运维人员设定高层目标(例如 “保持 99% 延迟 < 200 ms”),并让系统自动调优。
  • 成本效率:更高的 GPU 利用率直接转化为相同吞吐量下更低的云计算费用,对企业而言是有力的 ROI 论点。
  • 开源采用:由于实现基于 vLLM,已经使用该技术栈的团队只需少量配置即可接入调度器,加速实验。

限制与未来工作

  • 模型特定调优 – 当前的聚类假设延迟与 token 之间的关系相对稳定;非常异构的模型(例如,编码器‑解码器与仅解码器的混合)可能需要单独的分区策略。
  • 冷启动延迟 – Refine‑and‑Prune 步骤需要一个短暂的观察窗口来形成有意义的簇;在突发流量高峰期间,调度器可能会暂时回退到先来先服务(FCFS)。
  • 贝叶斯优化的可扩展性 – 虽然在单节点上轻量,但元优化器在大规模多节点部署中可能成为瓶颈;分布式贝叶斯方法是一个有前景的方向。
  • 超越延迟的公平性 – 本文关注延迟公平性;未来工作可以将成本或优先级层级(例如付费用户与免费用户)纳入评分函数。

总体而言,EWSJF 证明,在现有推理引擎之上添加一个适度的、学习驱动的层能够为混合工作负载的 LLM 服务释放显著的性能提升——这对开发者和终端用户都是一次胜利。

作者

  • Bronislav Sidik
  • Chaya Levi
  • Joseph Kampeas

论文信息

  • arXiv ID: 2601.21758v1
  • 分类: cs.DC, cs.AI
  • 发表时间: 2026年1月29日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »