[Paper] EWSJF：面向混合工作负载 LLM 推理的自适应调度器与混合分区

发布: 1周前 (2026年1月29日 GMT+8 22:14)

8 分钟阅读

原文: arXiv

Source: arXiv - 2601.21758v1

概述

大型语言模型（LLM）服务平台必须同时处理两种截然不同的流量：需要即时响应的短小交互查询，以及对延迟容忍度更高但要求高吞吐量的长批处理请求。论文 EWSJF: An Adaptive Scheduler with Hybrid Partitioning for Mixed‑Workload LLM Inference 提出了一种新的请求级调度器，能够在运行时学习工作负载，并动态将请求路由到最合适的执行路径。这样既降低了交互查询的尾部延迟，又提升了整体硬件利用率。

关键贡献

Refine‑and‑Prune partitioning – 一种无监督算法，能够在没有任何先前工作负载分析的情况下，自动将进入的请求分组为性能同质的集群。
Dynamic Queue Routing – 一个轻量级运行时组件，根据请求的估计“有效工作量”将其分配到相应的集群。
Density‑Weighted Scoring – 一种新颖的优先级函数，将紧迫性（例如剩余 token 数）与公平性相结合，防止长作业被饿死，同时仍然偏好短作业。
Bayesian Meta‑Optimization – 一个闭环调优器，利用实时的延迟和吞吐量指标持续调整分区阈值和评分权重。
Integration with vLLM – 作者将 EWSJF 嵌入开源的 vLLM 推理引擎，并展示了相较于传统先来先服务（FCFS），短请求的吞吐量提升超过 30 %，首次 token 时间（TTFT）降低至最高 4 倍。

方法论

工作负载观察 – 当请求到达时，调度器提取简单特征（令牌长度、模型版本、请求类型）并监控它们的执行延迟。
无监督分组（精炼‑与‑剪枝） – 使用聚类步骤（例如高斯混合模型）随后进行剪枝阶段，系统发现请求在延迟‑工作比率上相似的“密集”区域。这些区域形成共享相同执行特征的队列。
路由逻辑 – 当新请求到来时，轻量级分类器根据其当前有效工作估计（剩余令牌 ÷ 预期吞吐量）预测哪个队列能提供最佳服务。
优先级评分 – 在每个队列内部，请求按照密度加权得分排序：

[ \text{score} = \frac{w_{\text{urgency}}}{\text{remaining_tokens}} + w_{\text{fairness}} \times \text{queue_density} ]

权重经过调优，使得非常短的查询能够跳到前面，而较长的任务仍能获得进展。
贝叶斯元优化 – 贝叶斯优化器将评分权重和聚类超参数视为潜在变量。它定期抽样新配置，在真实流量上进行短期评估，并更新后验分布以收敛到最佳设置。

所有组件位于低层 GPU 调度器的上游，这意味着它们可以直接嵌入任何现有的 LLM 服务堆栈，而无需重写内核层的调度逻辑。

结果与发现

指标	FCFS（基线）	EWSJF（论文）
端到端吞吐量（tokens / s）	1.00×（基线）	+30 %
平均 TTFT（≤ 64‑token 查询）	120 ms	≈ 30 ms（≈ 4× 更快）
第 99 百分位延迟（交互式）	500 ms	≈ 180 ms
GPU 利用率（平均）	68 %	≈ 85 %

关键要点

通过将短作业和长作业分配到自适应队列，调度器消除了 FCFS 中常见的排头阻塞。
贝叶斯调优器能够快速适应工作负载的变化（例如突发的批处理作业），无需人工重新配置。
硬件利用率更高，因为长作业可以一起打包执行，而短作业则能立即获得空闲计算槽位。

实际影响

LLM SaaS 提供商 可以集成 EWSJF，以满足交互式聊天的严格 SLA，同时仍最大化批处理收入。
边缘推理平台（例如设备端助手）受益于更低的 TTFT，提升用户体验且无需更大的 GPU。
DevOps 工具：贝叶斯元优化器可以以简单的 API 形式公开，允许运维人员设定高层目标（例如 “保持 99% 延迟 < 200 ms”），并让系统自动调优。
成本效率：更高的 GPU 利用率直接转化为相同吞吐量下更低的云计算费用，对企业而言是有力的 ROI 论点。
开源采用：由于实现基于 vLLM，已经使用该技术栈的团队只需少量配置即可接入调度器，加速实验。

限制与未来工作

模型特定调优 – 当前的聚类假设延迟与 token 之间的关系相对稳定；非常异构的模型（例如，编码器‑解码器与仅解码器的混合）可能需要单独的分区策略。
冷启动延迟 – Refine‑and‑Prune 步骤需要一个短暂的观察窗口来形成有意义的簇；在突发流量高峰期间，调度器可能会暂时回退到先来先服务（FCFS）。
贝叶斯优化的可扩展性 – 虽然在单节点上轻量，但元优化器在大规模多节点部署中可能成为瓶颈；分布式贝叶斯方法是一个有前景的方向。
超越延迟的公平性 – 本文关注延迟公平性；未来工作可以将成本或优先级层级（例如付费用户与免费用户）纳入评分函数。

总体而言，EWSJF 证明，在现有推理引擎之上添加一个适度的、学习驱动的层能够为混合工作负载的 LLM 服务释放显著的性能提升——这对开发者和终端用户都是一次胜利。

作者

Bronislav Sidik
Chaya Levi
Joseph Kampeas

论文信息

arXiv ID: 2601.21758v1
分类: cs.DC, cs.AI
发表时间: 2026年1月29日
PDF: 下载 PDF

[Paper] EWSJF：面向混合工作负载 LLM 推理的自适应调度器与混合分区

概述

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] VideoGPA：蒸馏几何先验以实现3D一致的视频生成

[论文] 共享自治范式中信念与策略学习的端到端优化

[Paper] 解耦扩散采样用于函数空间的逆问题

[Paper] FOCUS：DLLMs 知道如何驯服它们的计算瓶颈