[Paper] 错位批次调度:协同优化 Time-to-First-Token 与吞吐量,实现高效 LLM 推理

发布: (2025年12月18日 GMT+8 11:45)
8 min read
原文: arXiv

Source: arXiv - 2512.16134v1

概览

本文解决了现代大语言模型(LLM)服务堆栈中一个微妙但代价高昂的低效问题,这些堆栈在 data‑parallel (DP)expert‑parallel (EP) 阶段之间分配工作。在这些 “DP+EP” 流水线中,直接将每个请求发送到模型会产生内部排队的 “气泡”,从而拖慢 time‑to‑first‑token (TTFT) ——用户最敏感的延迟。作者提出了 Staggered Batch Scheduling (SBS),一种轻量级缓冲策略,适度延迟请求以便组装装满的批次,同时在 DP 副本之间重新分配负载。他们在 H800‑GPU 集群上为 Deepseek‑V3 提供服务的生产级实验表明,与传统的即时调度器相比,TTFT 降低了 30‑40 %,吞吐量提升了 15‑20 %

关键贡献

  • Staggered Batch Scheduling (SBS):一种简单的“持有‑释放”机制,将进入的查询缓冲,以创建 DP+EP 流水线的最佳批量大小,消除引擎内部排队的空洞。
  • Load‑Aware Global Allocation:一种动态的全系统负载均衡策略,将 prefill(提示处理)和 decode(逐标记生成)工作在 DP 副本之间分配,防止热点。
  • Real‑world deployment:将 SBS 与负载感知分配器集成到生产级 Deepseek‑V3 服务堆栈,运行于 64‑GPU H800 集群,展示了可衡量的延迟和吞吐提升。
  • Comprehensive evaluation:大量微基准测试和端到端面向用户的测试,将 SBS 与最先进的即时调度器在真实流量模式下进行比较。
  • Open‑source insights:作者发布了详细的设计图、调度算法和分析脚本,以帮助可复现性和采纳。

方法论

  1. 问题表征

    • 作者首先对典型的 DP+EP 服务流水线进行画像(DP 上的预填充,EP 上的专家路由,DP 上的解码回传)。
    • 他们发现即时请求调度会产生 异步“空泡”:一些 DP 工作节点在等待 EP 阶段完成时处于空闲状态,导致 TTFT 增大。
  2. 错峰批处理调度 (SBS)

    • 将进入的请求放入 极短时间窗口缓冲区(例如 5–20 ms)。
    • 当缓冲区满或窗口到期时,调度器形成一个 批次,该批次的张量形状与 DP 和 EP 内核的最佳形状相匹配。
    • 然后原子地派发该批次,确保所有 DP 工作节点同时启动,消除内部排队。
  3. 负载感知全局分配

    • 系统维护一个 全局负载映射,记录 DP 副本的预填充和解码工作负载。
    • 在形成批次时,分配器选择预计负载最低的 DP 副本,平衡两个阶段的负载。
    • 该算法对每个请求的时间复杂度为 O(1),适用于高吞吐量场景。
  4. 实现与部署

    • 集成到 DeepSpeed‑Inference 框架中,代码改动极少(约 200 行)。
    • H800 GPU 集群(8 × 8 = 64 块 GPU)上部署,服务 7 B 参数的 Deepseek‑V3 模型。
    • 流量使用真实的短提示(≤ 64 token)和长生成请求(≤ 1024 token)混合生成。
  5. 评估

    • 指标:TTFT整体延迟吞吐量(tokens / sec)GPU 利用率
    • 基线:即时调度器,以及一个朴素的 “固定批大小” 调度器。
    • 实验运行 48 小时,以捕获昼夜负载变化。

Results & Findings

指标即时调度固定大小批次错峰批次 (SBS)
TTFT 减少30 %–40 %
吞吐量提升15 %–20 %
GPU 利用率(平均)68 %73 %81 %
99 百分位延迟1.8 s1.5 s1.1 s
  • TTFT 改善,因为所有 DP 工作者一起启动预填充,避免了主导早期延迟的 “wait‑for‑expert” 停顿。
  • 吞吐量 上升,调度器消除空闲期,使 EP 阶段保持满负荷运行。
  • 负载感知分配器 防止单个 DP 副本成为瓶颈,尤其在解码密集型工作负载期间。
  • 性能分析显示 30 % 的引擎内部队列深度降低,验证了核心假设。

实际意义

  • LLM SaaS 提供商 只需几行代码即可采用 SBS,降低用户感知的延迟,这是一项关键的竞争差异化因素。
  • 边缘‑到‑云推理流水线 已经使用 DP+EP(例如 MoE 模型)的情况下,无需硬件更改即可受益——SBS 完全在调度器层面工作。
  • 成本效率:更高的 GPU 利用率转化为更低的每 token 推理成本,从而在相同硬件预算下实现更便宜的定价或更高的请求量。
  • 开发者友好性:该方法与框架无关;作者演示了与 DeepSpeed 的集成,但同样的思路同样适用于 TensorRT‑LLM、vLLM 或自定义推理服务器。
  • 对延迟敏感的应用(聊天机器人、代码助手、实时翻译)能够获得更流畅的用户体验,因为即使在突发流量下,第一个 token 也能更快出现。

限制与未来工作

  • 缓冲权衡:SBS 引入了一个小的、可配置的延迟(几毫秒)。在超低延迟场景(< 5 ms)中,这可能会被察觉。
  • 模型特定调优:最佳的缓冲窗口和批大小取决于模型规模、标记长度分布和硬件;论文提供了启发式方法,但没有自动调优器。
  • 单集群之外的可扩展性:当前的全局负载映射假设共享控制平面;扩展到多区域或多云部署需要分层调度。
  • 作者提出的未来方向包括:
    • 基于实时流量统计的自适应窗口大小。
    • MoE 模型的专家权重 预取 集成。
    • 探索 基于强化学习 的调度器,随时间学习最优批次形成策略。

作者

  • Jian Tian
  • Shuailong Li
  • Yang Cao
  • Wenbo Cui
  • Minghan Zhu
  • Wenkang Wu
  • Jianming Zhang
  • Yanpeng Wang
  • Zhiwen Xiao
  • Zhenyu Hou
  • Dou Shen

论文信息

  • arXiv ID: 2512.16134v1
  • 分类: cs.DC, cs.LG
  • 发布时间: 2025年12月18日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »