[Paper] EWSJF:面向混合工作负载 LLM 推理的自适应调度器与混合分区
Source: arXiv - 2601.21758v1
概述
大型语言模型(LLM)服务平台必须同时处理两种截然不同的流量:需要即时响应的短小交互查询,以及对延迟容忍度更高但要求高吞吐量的长批处理请求。论文 EWSJF: An Adaptive Scheduler with Hybrid Partitioning for Mixed‑Workload LLM Inference 提出了一种新的请求级调度器,能够在运行时学习工作负载,并动态将请求路由到最合适的执行路径。这样既降低了交互查询的尾部延迟,又提升了整体硬件利用率。
关键贡献
- Refine‑and‑Prune partitioning – 一种无监督算法,能够在没有任何先前工作负载分析的情况下,自动将进入的请求分组为性能同质的集群。
- Dynamic Queue Routing – 一个轻量级运行时组件,根据请求的估计“有效工作量”将其分配到相应的集群。
- Density‑Weighted Scoring – 一种新颖的优先级函数,将紧迫性(例如剩余 token 数)与公平性相结合,防止长作业被饿死,同时仍然偏好短作业。
- Bayesian Meta‑Optimization – 一个闭环调优器,利用实时的延迟和吞吐量指标持续调整分区阈值和评分权重。
- Integration with vLLM – 作者将 EWSJF 嵌入开源的 vLLM 推理引擎,并展示了相较于传统先来先服务(FCFS),短请求的吞吐量提升超过 30 %,首次 token 时间(TTFT)降低至最高 4 倍。
方法论
-
工作负载观察 – 当请求到达时,调度器提取简单特征(令牌长度、模型版本、请求类型)并监控它们的执行延迟。
-
无监督分组(精炼‑与‑剪枝) – 使用聚类步骤(例如高斯混合模型)随后进行剪枝阶段,系统发现请求在延迟‑工作比率上相似的“密集”区域。这些区域形成共享相同执行特征的队列。
-
路由逻辑 – 当新请求到来时,轻量级分类器根据其当前有效工作估计(剩余令牌 ÷ 预期吞吐量)预测哪个队列能提供最佳服务。
-
优先级评分 – 在每个队列内部,请求按照密度加权得分排序:
[ \text{score} = \frac{w_{\text{urgency}}}{\text{remaining_tokens}} + w_{\text{fairness}} \times \text{queue_density} ]
权重经过调优,使得非常短的查询能够跳到前面,而较长的任务仍能获得进展。
-
贝叶斯元优化 – 贝叶斯优化器将评分权重和聚类超参数视为潜在变量。它定期抽样新配置,在真实流量上进行短期评估,并更新后验分布以收敛到最佳设置。
所有组件位于低层 GPU 调度器的上游,这意味着它们可以直接嵌入任何现有的 LLM 服务堆栈,而无需重写内核层的调度逻辑。
结果与发现
| 指标 | FCFS(基线) | EWSJF(论文) |
|---|---|---|
| 端到端吞吐量(tokens / s) | 1.00×(基线) | +30 % |
| 平均 TTFT(≤ 64‑token 查询) | 120 ms | ≈ 30 ms(≈ 4× 更快) |
| 第 99 百分位延迟(交互式) | 500 ms | ≈ 180 ms |
| GPU 利用率(平均) | 68 % | ≈ 85 % |
关键要点
- 通过将短作业和长作业分配到自适应队列,调度器消除了 FCFS 中常见的排头阻塞。
- 贝叶斯调优器能够快速适应工作负载的变化(例如突发的批处理作业),无需人工重新配置。
- 硬件利用率更高,因为长作业可以一起打包执行,而短作业则能立即获得空闲计算槽位。
实际影响
- LLM SaaS 提供商 可以集成 EWSJF,以满足交互式聊天的严格 SLA,同时仍最大化批处理收入。
- 边缘推理平台(例如设备端助手)受益于更低的 TTFT,提升用户体验且无需更大的 GPU。
- DevOps 工具:贝叶斯元优化器可以以简单的 API 形式公开,允许运维人员设定高层目标(例如 “保持 99% 延迟 < 200 ms”),并让系统自动调优。
- 成本效率:更高的 GPU 利用率直接转化为相同吞吐量下更低的云计算费用,对企业而言是有力的 ROI 论点。
- 开源采用:由于实现基于 vLLM,已经使用该技术栈的团队只需少量配置即可接入调度器,加速实验。
限制与未来工作
- 模型特定调优 – 当前的聚类假设延迟与 token 之间的关系相对稳定;非常异构的模型(例如,编码器‑解码器与仅解码器的混合)可能需要单独的分区策略。
- 冷启动延迟 – Refine‑and‑Prune 步骤需要一个短暂的观察窗口来形成有意义的簇;在突发流量高峰期间,调度器可能会暂时回退到先来先服务(FCFS)。
- 贝叶斯优化的可扩展性 – 虽然在单节点上轻量,但元优化器在大规模多节点部署中可能成为瓶颈;分布式贝叶斯方法是一个有前景的方向。
- 超越延迟的公平性 – 本文关注延迟公平性;未来工作可以将成本或优先级层级(例如付费用户与免费用户)纳入评分函数。
总体而言,EWSJF 证明,在现有推理引擎之上添加一个适度的、学习驱动的层能够为混合工作负载的 LLM 服务释放显著的性能提升——这对开发者和终端用户都是一次胜利。
作者
- Bronislav Sidik
- Chaya Levi
- Joseph Kampeas
论文信息
- arXiv ID: 2601.21758v1
- 分类: cs.DC, cs.AI
- 发表时间: 2026年1月29日
- PDF: 下载 PDF