[Paper] 动态 PD-Disaggregation 架构用于最大化 LLM 推理服务中的 Goodput
Source: arXiv
摘要
为了满足严格的服务水平目标(SLO),现代大语言模型(LLM)将预填充(prefill)和解码(decoding)阶段解耦,并将它们放在不同的 GPU 上,以缓解每个阶段固有的不同瓶颈。然而,LLM 工作负载的异构性导致在这种解耦架构中两类实例之间出现生产者‑消费者不平衡。为了解决该问题,我们提出 DOPD(Dynamic Optimal Prefill/Decoding),一种动态 LLM 推理系统,能够根据实时负载监控调整实例分配,以实现最佳的预填充‑解码(P/D)比例。结合适当的请求调度策略,DOPD 有效消除预填充实例与解码实例之间的不平衡,并在高并发下缓解因混合长度请求导致的资源分配不匹配。
实验评估表明,与 vLLM 和 DistServe(代表性的聚合式和解耦式方法)相比,DOPD 将整体系统吞吐量提升最高 1.5 倍,将 P90 首令牌时间(TTFT) 降低最高 67.5 %,并将 P90 每输出令牌时间(TPOT) 降低最高 22.8 %。此外,我们的动态 P/D 调整技术基于历史负载进行主动重构,实现了超过 99 % 的 SLO 达成率,同时使用更少的额外资源。