[Paper] FlowPrefill:解耦抢占与预填充调度粒度,以缓解 LLM 服务中的 Head-of-Line 阻塞
发布: (2026年2月19日 GMT+8 00:57)
6 分钟阅读
原文: arXiv
Source: arXiv - 2602.16603v1
概述
大规模部署的大语言模型(LLMs)在服务时,“prefill”阶段——模型处理初始提示的过程——常常成为瓶颈。长时间运行的提示会阻塞更短、更高优先级的请求,导致首次令牌时间(TTFT)违规。论文 FlowPrefill 提出了一个新的服务架构,将 何时 可以抢占请求 与 细粒度 的工作块分离,从而显著降低排队首位(HoL)阻塞,同时保持高吞吐量。
关键贡献
- 操作符级抢占: 使用模型操作符之间的自然边界(例如 attention、前馈)来暂停和恢复请求,而无需使用小且低效的块。
- 事件驱动调度: 调度决策仅在请求到达或完成时做出,消除传统调度器的持续轮询开销。
- TTFT‑Goodput 优化器: 一个轻量级运行时,动态平衡延迟(TTFT)与整体吞吐量,满足跨请求的异构 SLO。
- 真实场景评估: 在生产级追踪上进行实验,显示相较于现有最佳 LLM 服务系统,最大吞吐量提升高达 5.6×,同时满足多样的延迟目标。
方法论
- 从频率中解耦粒度 – 与其固定块大小(例如,“处理 10 个 token 然后检查抢占”),FlowPrefill 让调度器决定 何时 干预(事件驱动)以及 在哪里 干预(算子边界)。
- 算子级钩子 – 作者对 transformer 实现进行插桩,使每个算子都可以安全地检查点并恢复。这实现了细粒度抢占,而不会像小 token 级块那样产生计算浪费。
- 调度器逻辑 – 中央控制器维护一个待处理请求的优先队列。当有新请求到达或已有请求完成一个算子时,调度器重新评估下一个应运行的请求,优先考虑 TTFT SLO 更紧的请求。
- 仿真与轨迹回放 – 他们回放了来自生产 LLM 服务的真实流量日志,注入了混合的短提示和长提示以及不同的延迟预算,并将 FlowPrefill 与基线块式预填充以及最先进的系统(如 vLLM、TGI)进行比较。
结果与发现
| 指标 | 基线(分块预填) | FlowPrefill |
|---|---|---|
| 最大吞吐量(请求/秒) | 1.0× (reference) | 5.6× |
| 第99百分位 TTFT SLO 违规率 | 38 % | 7 % |
| GPU 平均利用率 | 68 % | 92 % |
| 调度器开销(CPU %) | 12 % | 3 % |
- 延迟与吞吐量的权衡已解决: 通过在算子边界进行抢占,FlowPrefill 使 GPU 保持忙碌(高利用率),同时仍能将高优先级请求提前处理。
- 控制平面效率: 事件驱动调度将调度器唤醒次数降低超过 80%,释放 CPU 周期用于其他服务任务。
- SLO 异构性: 系统自动满足混合延迟预算(例如交互式聊天与批量摘要),无需手动调优。
实际影响
- 针对云端 LLM 提供商: 部署 FlowPrefill 可以提升每个 GPU 的并发用户数,降低每 token 的成本,并改善 SLA 合规性。
- 针对应用开发者: API 接口保持不变;开发者只需为每个请求指定 TTFT 截止时间,运行时会处理其余工作。
- 边缘 / 设备端推理: 低开销调度器使得在受限硬件上运行多租户 LLM 服务成为可能(例如数据中心机柜中的推理加速器)。
- 集成路径: FlowPrefill 的算子级钩子实现为对现有 PyTorch/Transformers 内核的轻量包装,这意味着可以以最小的代码改动将其嵌入现有的服务堆栈(vLLM、TGI、Triton)中。
限制与未来工作
- 模型兼容性: 当前原型面向标准的 transformer 架构;异常模型(例如 mixture‑of‑experts、recurrent adapters)可能需要额外的算子仪器化。
- 内存开销: 对算子状态进行检查点会产生适度的额外 GPU 内存(约 5 %);极大的上下文窗口可能会突破内存限制。
- 分布式扩展: 本文聚焦于单节点 GPU 调度。将事件驱动的抢占逻辑扩展到多节点集群(考虑网络延迟)留待未来研究。
- 自适应学习: 未来版本可以加入基于强化学习的 SLO 预测,以在高度波动的工作负载下进一步细化抢占决策。
作者
- Chia-chi Hsieh
- Zan Zong
- Xinyang Chen
- Jianjiang Li
- Jidong Zhai
- Lijie Wen
论文信息
- arXiv ID: 2602.16603v1
- 分类: cs.DC, cs.AI
- 发布日期: 2026年2月18日
- PDF: 下载 PDF