[Paper] 错位批次调度：协同优化 Time-to-First-Token 与吞吐量，实现高效 LLM 推理

发布: 4个月前 (2025年12月18日 GMT+8 11:45)

8 分钟阅读

原文: arXiv

Source: arXiv - 2512.16134v1

概览

本文解决了现代大语言模型（LLM）服务堆栈中一个微妙但代价高昂的低效问题，这些堆栈在 data‑parallel (DP) 与 expert‑parallel (EP) 阶段之间分配工作。在这些 “DP+EP” 流水线中，直接将每个请求发送到模型会产生内部排队的 “气泡”，从而拖慢 time‑to‑first‑token (TTFT) ——用户最敏感的延迟。作者提出了 Staggered Batch Scheduling (SBS)，一种轻量级缓冲策略，适度延迟请求以便组装装满的批次，同时在 DP 副本之间重新分配负载。他们在 H800‑GPU 集群上为 Deepseek‑V3 提供服务的生产级实验表明，与传统的即时调度器相比，TTFT 降低了 30‑40 %，吞吐量提升了 15‑20 %。

关键贡献

Staggered Batch Scheduling (SBS)：一种简单的“持有‑释放”机制，将进入的查询缓冲，以创建 DP+EP 流水线的最佳批量大小，消除引擎内部排队的空洞。
Load‑Aware Global Allocation：一种动态的全系统负载均衡策略，将 prefill（提示处理）和 decode（逐标记生成）工作在 DP 副本之间分配，防止热点。
Real‑world deployment：将 SBS 与负载感知分配器集成到生产级 Deepseek‑V3 服务堆栈，运行于 64‑GPU H800 集群，展示了可衡量的延迟和吞吐提升。
Comprehensive evaluation：大量微基准测试和端到端面向用户的测试，将 SBS 与最先进的即时调度器在真实流量模式下进行比较。
Open‑source insights：作者发布了详细的设计图、调度算法和分析脚本，以帮助可复现性和采纳。

方法论

问题表征
- 作者首先对典型的 DP+EP 服务流水线进行画像（DP 上的预填充，EP 上的专家路由，DP 上的解码回传）。
- 他们发现即时请求调度会产生 异步“空泡”：一些 DP 工作节点在等待 EP 阶段完成时处于空闲状态，导致 TTFT 增大。
错峰批处理调度 (SBS)
- 将进入的请求放入 极短时间窗口缓冲区（例如 5–20 ms）。
- 当缓冲区满或窗口到期时，调度器形成一个批次，该批次的张量形状与 DP 和 EP 内核的最佳形状相匹配。
- 然后原子地派发该批次，确保所有 DP 工作节点同时启动，消除内部排队。
负载感知全局分配
- 系统维护一个 全局负载映射，记录 DP 副本的预填充和解码工作负载。
- 在形成批次时，分配器选择预计负载最低的 DP 副本，平衡两个阶段的负载。
- 该算法对每个请求的时间复杂度为 O(1)，适用于高吞吐量场景。
实现与部署
- 集成到 DeepSpeed‑Inference 框架中，代码改动极少（约 200 行）。
- 在 H800 GPU 集群（8 × 8 = 64 块 GPU）上部署，服务 7 B 参数的 Deepseek‑V3 模型。
- 流量使用真实的短提示（≤ 64 token）和长生成请求（≤ 1024 token）混合生成。
评估
- 指标：TTFT、整体延迟、吞吐量（tokens / sec） 和 GPU 利用率。
- 基线：即时调度器，以及一个朴素的 “固定批大小” 调度器。
- 实验运行 48 小时，以捕获昼夜负载变化。

Results & Findings

指标	即时调度	固定大小批次	错峰批次 (SBS)
TTFT 减少	–	–	30 %–40 %
吞吐量提升	–	–	15 %–20 %
GPU 利用率（平均）	68 %	73 %	81 %
99 百分位延迟	1.8 s	1.5 s	1.1 s

TTFT 改善，因为所有 DP 工作者一起启动预填充，避免了主导早期延迟的 “wait‑for‑expert” 停顿。
吞吐量 上升，调度器消除空闲期，使 EP 阶段保持满负荷运行。
负载感知分配器 防止单个 DP 副本成为瓶颈，尤其在解码密集型工作负载期间。
性能分析显示 30 % 的引擎内部队列深度降低，验证了核心假设。

实际意义

LLM SaaS 提供商 只需几行代码即可采用 SBS，降低用户感知的延迟，这是一项关键的竞争差异化因素。
边缘‑到‑云推理流水线 已经使用 DP+EP（例如 MoE 模型）的情况下，无需硬件更改即可受益——SBS 完全在调度器层面工作。
成本效率：更高的 GPU 利用率转化为更低的每 token 推理成本，从而在相同硬件预算下实现更便宜的定价或更高的请求量。
开发者友好性：该方法与框架无关；作者演示了与 DeepSpeed 的集成，但同样的思路同样适用于 TensorRT‑LLM、vLLM 或自定义推理服务器。
对延迟敏感的应用（聊天机器人、代码助手、实时翻译）能够获得更流畅的用户体验，因为即使在突发流量下，第一个 token 也能更快出现。

限制与未来工作

缓冲权衡：SBS 引入了一个小的、可配置的延迟（几毫秒）。在超低延迟场景（< 5 ms）中，这可能会被察觉。
模型特定调优：最佳的缓冲窗口和批大小取决于模型规模、标记长度分布和硬件；论文提供了启发式方法，但没有自动调优器。
单集群之外的可扩展性：当前的全局负载映射假设共享控制平面；扩展到多区域或多云部署需要分层调度。
作者提出的未来方向包括：
- 基于实时流量统计的自适应窗口大小。
- 与 MoE 模型的专家权重预取集成。
- 探索 基于强化学习 的调度器，随时间学习最优批次形成策略。

作者

Jian Tian
Shuailong Li
Yang Cao
Wenbo Cui
Minghan Zhu
Wenkang Wu
Jianming Zhang
Yanpeng Wang
Zhiwen Xiao
Zhenyu Hou
Dou Shen

论文信息

arXiv ID: 2512.16134v1
分类: cs.DC, cs.LG
发布时间: 2025年12月18日
PDF: 下载 PDF

[Paper] 错位批次调度：协同优化 Time-to-First-Token 与吞吐量，实现高效 LLM 推理

概览

关键贡献

方法论

Results & Findings

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] Re-Depth Anything: 测试时深度细化通过自监督再照明

[Paper] 开放基础模型中视觉的对抗鲁棒性

[Paper] 当推理遇到其法则

[Paper] 分布鲁棒模仿学习：用于可认证自主性的层次控制架构