[Paper] 错位批次调度:协同优化 Time-to-First-Token 与吞吐量,实现高效 LLM 推理
发布: (2025年12月18日 GMT+8 11:45)
8 min read
原文: arXiv
Source: arXiv - 2512.16134v1
概览
本文解决了现代大语言模型(LLM)服务堆栈中一个微妙但代价高昂的低效问题,这些堆栈在 data‑parallel (DP) 与 expert‑parallel (EP) 阶段之间分配工作。在这些 “DP+EP” 流水线中,直接将每个请求发送到模型会产生内部排队的 “气泡”,从而拖慢 time‑to‑first‑token (TTFT) ——用户最敏感的延迟。作者提出了 Staggered Batch Scheduling (SBS),一种轻量级缓冲策略,适度延迟请求以便组装装满的批次,同时在 DP 副本之间重新分配负载。他们在 H800‑GPU 集群上为 Deepseek‑V3 提供服务的生产级实验表明,与传统的即时调度器相比,TTFT 降低了 30‑40 %,吞吐量提升了 15‑20 %。
关键贡献
- Staggered Batch Scheduling (SBS):一种简单的“持有‑释放”机制,将进入的查询缓冲,以创建 DP+EP 流水线的最佳批量大小,消除引擎内部排队的空洞。
- Load‑Aware Global Allocation:一种动态的全系统负载均衡策略,将 prefill(提示处理)和 decode(逐标记生成)工作在 DP 副本之间分配,防止热点。
- Real‑world deployment:将 SBS 与负载感知分配器集成到生产级 Deepseek‑V3 服务堆栈,运行于 64‑GPU H800 集群,展示了可衡量的延迟和吞吐提升。
- Comprehensive evaluation:大量微基准测试和端到端面向用户的测试,将 SBS 与最先进的即时调度器在真实流量模式下进行比较。
- Open‑source insights:作者发布了详细的设计图、调度算法和分析脚本,以帮助可复现性和采纳。
方法论
-
问题表征
- 作者首先对典型的 DP+EP 服务流水线进行画像(DP 上的预填充,EP 上的专家路由,DP 上的解码回传)。
- 他们发现即时请求调度会产生 异步“空泡”:一些 DP 工作节点在等待 EP 阶段完成时处于空闲状态,导致 TTFT 增大。
-
错峰批处理调度 (SBS)
- 将进入的请求放入 极短时间窗口缓冲区(例如 5–20 ms)。
- 当缓冲区满或窗口到期时,调度器形成一个 批次,该批次的张量形状与 DP 和 EP 内核的最佳形状相匹配。
- 然后原子地派发该批次,确保所有 DP 工作节点同时启动,消除内部排队。
-
负载感知全局分配
- 系统维护一个 全局负载映射,记录 DP 副本的预填充和解码工作负载。
- 在形成批次时,分配器选择预计负载最低的 DP 副本,平衡两个阶段的负载。
- 该算法对每个请求的时间复杂度为 O(1),适用于高吞吐量场景。
-
实现与部署
- 集成到 DeepSpeed‑Inference 框架中,代码改动极少(约 200 行)。
- 在 H800 GPU 集群(8 × 8 = 64 块 GPU)上部署,服务 7 B 参数的 Deepseek‑V3 模型。
- 流量使用真实的短提示(≤ 64 token)和长生成请求(≤ 1024 token)混合生成。
-
评估
- 指标:TTFT、整体延迟、吞吐量(tokens / sec) 和 GPU 利用率。
- 基线:即时调度器,以及一个朴素的 “固定批大小” 调度器。
- 实验运行 48 小时,以捕获昼夜负载变化。
Results & Findings
| 指标 | 即时调度 | 固定大小批次 | 错峰批次 (SBS) |
|---|---|---|---|
| TTFT 减少 | – | – | 30 %–40 % |
| 吞吐量提升 | – | – | 15 %–20 % |
| GPU 利用率(平均) | 68 % | 73 % | 81 % |
| 99 百分位延迟 | 1.8 s | 1.5 s | 1.1 s |
- TTFT 改善,因为所有 DP 工作者一起启动预填充,避免了主导早期延迟的 “wait‑for‑expert” 停顿。
- 吞吐量 上升,调度器消除空闲期,使 EP 阶段保持满负荷运行。
- 负载感知分配器 防止单个 DP 副本成为瓶颈,尤其在解码密集型工作负载期间。
- 性能分析显示 30 % 的引擎内部队列深度降低,验证了核心假设。
实际意义
- LLM SaaS 提供商 只需几行代码即可采用 SBS,降低用户感知的延迟,这是一项关键的竞争差异化因素。
- 边缘‑到‑云推理流水线 已经使用 DP+EP(例如 MoE 模型)的情况下,无需硬件更改即可受益——SBS 完全在调度器层面工作。
- 成本效率:更高的 GPU 利用率转化为更低的每 token 推理成本,从而在相同硬件预算下实现更便宜的定价或更高的请求量。
- 开发者友好性:该方法与框架无关;作者演示了与 DeepSpeed 的集成,但同样的思路同样适用于 TensorRT‑LLM、vLLM 或自定义推理服务器。
- 对延迟敏感的应用(聊天机器人、代码助手、实时翻译)能够获得更流畅的用户体验,因为即使在突发流量下,第一个 token 也能更快出现。
限制与未来工作
- 缓冲权衡:SBS 引入了一个小的、可配置的延迟(几毫秒)。在超低延迟场景(< 5 ms)中,这可能会被察觉。
- 模型特定调优:最佳的缓冲窗口和批大小取决于模型规模、标记长度分布和硬件;论文提供了启发式方法,但没有自动调优器。
- 单集群之外的可扩展性:当前的全局负载映射假设共享控制平面;扩展到多区域或多云部署需要分层调度。
- 作者提出的未来方向包括:
- 基于实时流量统计的自适应窗口大小。
- 与 MoE 模型的专家权重 预取 集成。
- 探索 基于强化学习 的调度器,随时间学习最优批次形成策略。
作者
- Jian Tian
- Shuailong Li
- Yang Cao
- Wenbo Cui
- Minghan Zhu
- Wenkang Wu
- Jianming Zhang
- Yanpeng Wang
- Zhiwen Xiao
- Zhenyu Hou
- Dou Shen
论文信息
- arXiv ID: 2512.16134v1
- 分类: cs.DC, cs.LG
- 发布时间: 2025年12月18日
- PDF: 下载 PDF