1周前 · devops [Paper] 动态 PD-Disaggregation 架构用于最大化 LLM 推理服务中的 Goodput 为了满足严格的服务水平目标(SLO),当代大型语言模型(LLMs)将预填充(prefill)和解码(decoding)阶段解耦,并将它们放置在不同的 GPU 上……