[Paper] 动态 PD-Disaggregation 架构用于最大化 LLM 推理服务中的 Goodput

发布: (2025年11月26日 GMT+8 10:27)
2 min read
原文: arXiv

Source: arXiv

摘要

为了满足严格的服务水平目标(SLO),现代大语言模型(LLM)将预填充(prefill)和解码(decoding)阶段解耦,并将它们放在不同的 GPU 上,以缓解每个阶段固有的不同瓶颈。然而,LLM 工作负载的异构性导致在这种解耦架构中两类实例之间出现生产者‑消费者不平衡。为了解决该问题,我们提出 DOPD(Dynamic Optimal Prefill/Decoding),一种动态 LLM 推理系统,能够根据实时负载监控调整实例分配,以实现最佳的预填充‑解码(P/D)比例。结合适当的请求调度策略,DOPD 有效消除预填充实例与解码实例之间的不平衡,并在高并发下缓解因混合长度请求导致的资源分配不匹配。

实验评估表明,与 vLLM 和 DistServe(代表性的聚合式和解耦式方法)相比,DOPD 将整体系统吞吐量提升最高 1.5 倍,将 P90 首令牌时间(TTFT) 降低最高 67.5 %,并将 P90 每输出令牌时间(TPOT) 降低最高 22.8 %。此外,我们的动态 P/D 调整技术基于历史负载进行主动重构,实现了超过 99 % 的 SLO 达成率,同时使用更少的额外资源。

Back to Blog

相关文章

阅读更多 »

Friday Five — 2025年12月5日

https://www.redhat.com/rhdc/managed-files/styles/default_800/private/number-1.png.webp?itok=pDWx13kK Red Hat 将在 AWS 上提供增强的 AI 推理

Terraform 项目:简单 EC2 + 安全组

项目结构 terraform-project/ │── main.tf │── variables.tf │── outputs.tf │── providers.tf │── terraform.tfvars │── modules/ │ └── ec2/ │ ├── main.tf │ …