[Paper] PARD:通过主动请求丢弃提升推理流水线的 Goodput
Source: arXiv - 2602.08747v1
概述
现代 AI 服务通常将多个深度神经网络(DNN)模型拼接成一个 inference pipeline,必须在严格的延迟预算内返回结果。当请求堆积过多时,许多请求会错过截止时间,最终超时。现有系统在 timeout 即将发生之后才丢弃请求,这会浪费计算资源且仍会留下许多未完成的请求。论文 PARD: Enhancing Goodput for Inference Pipeline via Proactive Request Dropping 提出了一个 proactive 的丢弃策略,决定 when 和 which 请求在它们成为问题之前就被丢弃,从而显著提升系统交付的有效工作量(goodput)。
关键贡献
- 主动丢弃框架 (PARD): 引入一个运行时感知的控制器,能够提前预测过载并预先丢弃请求。
- 自适应优先级调度器: 根据请求剩余的延迟预算和当前工作负载强度动态分配飞行中请求的优先级,确保“合适”的请求得以保留。
- 全面评估: 在 64 GPU 集群上展示,PARD 相较于最佳已有系统将有效吞吐量提升 16 %–176 %,同时将整体丢弃率和浪费的 GPU 周期分别降低至最高 17 倍 和 62 倍。
- 通用设计: 适用于任何多模型推理流水线,且无需对底层 DNN 模型进行修改。
方法论
- 运行时监控: PARD 持续测量队列长度、每阶段处理时间,以及每个请求在管道中传递时的剩余延迟预算。
- 预测性过载检测: 使用这些指标,轻量级控制器估计管道在近期是否会错过截止期限。
- 何时丢弃决策: 如果预测到过载,控制器触发一个 丢弃窗口——在此短时间间隔内将裁剪部分请求。
- 选择丢弃对象: 每个正在处理的请求都会获得一个优先级分数:
- 更高优先级 → 剩余延迟预算更大、计算成本更低,或属于高价值服务层。
- 更低优先级 → 截止时间紧迫、计算负载重,或属于低价值层。
控制器首先丢弃优先级最低的请求,以释放资源供其余请求使用。
- 反馈循环: 在每个丢弃窗口之后,系统重新评估工作负载并调整未来丢弃的激进程度(例如,扩大或缩小窗口)。
整个管道保持不变;PARD 作为轻量编排层,能够部署在现有的推理服务堆栈上(例如 TensorRT‑Inference Server、Triton)。
结果与发现
| 指标 | 基线(被动丢弃) | PARD |
|---|---|---|
| 有效吞吐量(每秒有用请求) | 1.0× (reference) | 1.16× – 2.76× |
| 总体丢弃率 | 12 % | 6 % – 7.5 % |
| 浪费的 GPU 计算(用于已丢弃请求的周期) | 1.0× | 0.06× – 0.63× |
| 延迟预算未达概率 | 8 % | <2 % |
关键要点:
- 提前丢弃可防止管道饱和,保持队列浅层并降低尾部延迟。
- 优先级感知的选择确保高价值或低成本请求得以保留,直接提升有效吞吐量。
- 系统具备可扩展性:在处理真实工作负载(图像分类、目标检测、推荐)的 64 GPU 集群上,收益在不同模型深度和批量大小下均保持。
实际影响
- 针对云 AI 提供商: PARD 可以集成到推理服务平台中,在不增加硬件的情况下,从现有 GPU 集群中榨取更多收入。
- 边缘与设备端部署: 计算资源受限的设备(例如自主无人机、AR 眼镜)可以使用主动丢弃,以在保证实时响应的同时节省电池。
- 面向 SLA 的服务: 承诺低于 100 ms 延迟的 SaaS 产品可以采用 PARD,更可靠地满足 SLA,降低违约罚金。
- 开发者工具: 优先级 API 简单(设置预算、权重、层级),可在 SDK 中暴露,让开发者细粒度调节哪些请求是“关键任务”。
总体而言,PARD 将思维方式从“只有在必须时才丢弃”转变为“在必须之前智能丢弃”,这一改变只需极少的代码修改即可实现,并能带来可衡量的投资回报。
限制与未来工作
- 预测准确性: 过载估计器依赖短期统计;突发的流量激增(例如闪电人群)仍可能导致偶尔的截止期限错过。
- 优先级配置开销: 为异构服务确定最佳优先级权重可能并不容易;自动调优留待未来研究。
- 模型特定优化: PARD 对所有阶段一视同仁;与模型层面的性能分析更深入的结合可能进一步提升决策效果。
- 超越 GPU 集群的扩展: 作者计划探索该方法在异构硬件(TPU、FPGA)以及多租户环境中的适用性,后者因资源隔离而增加了复杂性。
作者
- Zhixin Zhao
- Yitao Hu
- Simin Chen
- Mingfang Ji
- Wei Yang
- Yuhao Zhang
- Laiping Zhao
- Wenxin Li
- Xiulong Liu
- Wenyu Qu
- Hao Wang
论文信息
- arXiv ID: 2602.08747v1
- 分类: cs.DC
- 出版日期: 2026年2月9日
- PDF: 下载 PDF