[Paper] 动态 PD-Disaggregation 架构用于最大化 LLM 推理服务中的 Goodput

发布: 2个月前 (2025年11月26日 GMT+8 10:27)

2 分钟阅读

原文: arXiv

Source: arXiv

摘要

为了满足严格的服务水平目标（SLO），现代大语言模型（LLM）将预填充（prefill）和解码（decoding）阶段解耦，并将它们放在不同的 GPU 上，以缓解每个阶段固有的不同瓶颈。然而，LLM 工作负载的异构性导致在这种解耦架构中两类实例之间出现生产者‑消费者不平衡。为了解决该问题，我们提出 DOPD（Dynamic Optimal Prefill/Decoding），一种动态 LLM 推理系统，能够根据实时负载监控调整实例分配，以实现最佳的预填充‑解码（P/D）比例。结合适当的请求调度策略，DOPD 有效消除预填充实例与解码实例之间的不平衡，并在高并发下缓解因混合长度请求导致的资源分配不匹配。

实验评估表明，与 vLLM 和 DistServe（代表性的聚合式和解耦式方法）相比，DOPD 将整体系统吞吐量提升最高 1.5 倍，将 P90 首令牌时间（TTFT） 降低最高 67.5 %，并将 P90 每输出令牌时间（TPOT） 降低最高 22.8 %。此外，我们的动态 P/D 调整技术基于历史负载进行主动重构，实现了超过 99 % 的 SLO 达成率，同时使用更少的额外资源。

[Paper] 动态 PD-Disaggregation 架构用于最大化 LLM 推理服务中的 Goodput

摘要

相关文章

# 优化 Docker 镜像：高效构建的最佳实践

Amazon EKS 功能：快速概览

为什么在AI时代，初级开发者仍然是必不可少的

AWS re:Invent 2025：如何观看并实时跟进