[Paper] L4：通过基于长度感知的调度实现低延迟和负载均衡的 LLM 服务

发布: 6天前 (2025年12月22日 GMT+8 17:13)

7 min read

原文: arXiv

Source: arXiv - 2512.19179v1

概览

本文介绍了 L4，一种全新的运行时系统，通过感知请求长度，显著加速在 GPU 上服务大型语言模型（LLMs）。由于现代 LLM 能处理 100 k+ 令牌的上下文窗口，在同一 GPU 批次中混合短查询和长查询会浪费计算资源并增加延迟。L4 通过动态将请求路由到针对特定长度优化的实例，将异构工作负载转化为平滑的流水线。

关键贡献

长度感知调度：一种新颖的调度器，按传入请求的 token 长度对推理实例进行分组，降低每个实例的异质性。
动态规划分区：一种高效算法，确定长度专用阶段的最佳数量，以最大化整体 QoE（延迟 + 吞吐量）。
运行时范围细化与去中心化再平衡：持续调整长度边界以及跨组和组内的负载分配，无需中心瓶颈。
全面评估：相较于现有最佳多实例调度器，展示了最高 降低 67 % 的端到端延迟、降低 69 % 的尾部延迟，以及 提升 2.89× 的吞吐量。

方法论

实例分组 – L4 启动多个相同的 GPU 实例来运行同一 LLM。每个实例被分配一个 长度区间（例如，0‑2 k 令牌，2‑8 k 令牌，…）。
动态划分 – 使用轻量级的动态规划（DP）求解器，L4 定期根据当前请求分布以及在延迟和吞吐量之间平衡的 QoE 目标，重新计算最优的长度区间集合。
流水线流动 – 当请求到达时，首先放入长度区间最匹配其令牌数的组中。如果请求增长（例如因后续交互），它可以被提升到后面的阶段，在组之间形成自然的流水线。
负载均衡 – 在每个组内部，去中心化的均衡器监控 GPU 利用率并在实例之间迁移请求，以避免热点。跨组之间，L4 调整长度边界，使每个组的负载保持均衡。
实现方式 – 基于标准推理引擎（例如 vLLM）构建，L4 只添加了一层薄薄的调度层，核心模型执行保持不变。

结果与发现

指标	基线（最新技术）	L4
平均端到端延迟	1.2 s	0.4 s (‑67 %)
第99百分位延迟	2.8 s	0.9 s (‑69 %)
吞吐量（查询/秒）	120	350 (×2.89)
GPU 利用率	~55 %	~92 %

长度异质性是主要瓶颈，当上下文窗口超过约 32 k 令牌时。
动态分区自适应工作负载变化（例如，长文档突然激增），在几秒内完成，保持 QoE 稳定。
去中心化再平衡消除单点故障，并可扩展至数十个 GPU 实例而几乎没有额外开销。

Practical Implications

降低运营成本 – 更高的 GPU 利用率意味着可以使用更少的 GPU 来满足相同的 SLA，直接削减云费用。
提升用户体验 – 更快的响应时间，尤其是对长上下文查询（代码生成、文档摘要），能够提升感知质量。
简化容量规划 – 运营者可以依赖 L4 的自调节能力来处理混合工作负载，无需手动为“短查询”和“长查询”分别配置集群。
即插即用的集成 – 由于 L4 位于现有推理服务器之上，团队可以在最小代码改动的情况下采用它，保留已有的模型流水线和监控工具。
开启新服务 – 以前因延迟而被回避的应用（例如实时法律文档分析、拥有 100 k token 上下文的多轮对话）现在变得可行。

限制与未来工作

假设模型权重是静态的 – L4 仍未处理即时模型更新（例如 LoRA 微调），这些更新可能会改变每个 token 的计算成本。
仅限 GPU – 当前设计面向同构 GPU 集群；扩展到异构加速器（TPU、CPU）留待以后。
调度开销 – 虽然轻量，但 DP 求解器和范围细化会增加少量固定延迟；未来工作可以探索完全异步或基于学习的调度器。
安全性与隔离 – 多租户场景可能需要额外的沙箱机制以防止跨请求干扰，而 L4 并未开箱即用地解决此问题。

结论：L4 表明，一个适度的、感知长度的调度层能够为 LLM 服务释放显著的性能提升，使大上下文应用对开发者和企业而言更加经济且响应更快。

作者

Yitao Yuan
Chenqi Zhao
Bohan Zhao
Zane Cao
Yongchao He
Wenfei Wu

论文信息

arXiv ID: 2512.19179v1
分类: cs.DC
发布时间: 2025年12月22日
PDF: 下载 PDF

[Paper] L4：通过基于长度感知的调度实现低延迟和负载均衡的 LLM 服务

概览

关键贡献

方法论

结果与发现

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[论文] 可适应云架构首届研讨会论文集

在异构网络和不可靠连接下的鲁棒联邦微调：聚合视角

[Paper] 声明式分布式广播使用三值模态逻辑和半拓扑

[Paper] ESCHER：高效且可扩展的超图演化表示及其在三元计数中的应用