[Paper] FASER：细粒度阶段管理用于动态 LLM 服务中的推测解码

发布: 2天前 (2026年4月22日 GMT+8 20:44)

6 分钟阅读

原文: arXiv

Source: arXiv - 2604.20503v1

概览

本文提出了 FASER，一种用于服务大语言模型（LLMs）的新系统，使投机解码（SD）在真实世界、流量变化的工作负载中更加灵活。通过在更细粒度上管理草稿和验证阶段，FASER 的吞吐量提升最高可达 53 %，延迟相比最佳现有服务堆栈降低近一半。

动态投机长度选择 – 对于每个传入请求，FASER 根据模型的置信度和当前系统负载预测一个最优的草稿长度。该预测轻量且在 GPU 核心启动前于 CPU 端运行。
提前令牌剪枝 – 在验证阶段将草稿令牌与真实模型进行比对时，任何未通过验证测试的令牌会被立即丢弃，从而释放 GPU 通道供其他工作使用。
基于前沿的验证 – 验证工作被划分为若干小的、相互独立的块（前沿）。每个前沿可以在其对应的草稿块完成后立即启动，使草稿和验证内核在时间上实现重叠。
细粒度空间复用 – GPU 调度器被指示为草稿前沿和验证前沿分配独立的线程块，确保它们共享同一 SM（流式多处理器）而不争用相同的寄存器或共享内存。
与 vLLM 的集成 – 作者对 vLLM 的请求调度器进行补丁，加入 FASER 的策略，然后在标准 LLM 基准（如 LLaMA‑2‑13B、Mistral‑7B）上测量端到端的延迟和吞吐量。

指标	基线 (vLLM + 标准 SD)	FASER	改进
吞吐量 (tokens/s)	1,200	1,836	+53 %
99 百分位延迟	1.42 s	0.74 s	‑48 %
GPU 利用率 (平均)	62 %	88 %	+26 %
浪费的验证工作（被拒绝的 token）	18 % of total	5 %	‑72 %

这些收益在混合负载条件下最为显著，此时传统 SD 要么停滞（低负载），要么使 GPU 超负荷（高负载）。通过持续调整投机长度并重叠各阶段，FASER 使 GPU 保持忙碌而不会被无用工作淹没。

Higher QPS for SaaS LLM APIs – Cloud providers can serve more requests per GPU, reducing cost per token and enabling cheaper pricing tiers.
Lower latency for interactive apps – Chatbots, code assistants, and IDE plugins benefit from sub‑second response times even when the backend is under heavy load.
Better resource elasticity – Operators can run fewer GPU instances while still meeting SLAs, simplifying autoscaling logic that otherwise has to over‑provision for traffic spikes.
Compatibility with existing stacks – Since FASER is built on top of vLLM and only tweaks the scheduler and kernel launch patterns, it can be dropped into most PyTorch‑based serving pipelines with minimal code changes.
Potential for edge deployment – On devices with limited compute (e.g., on‑device inference accelerators), the early pruning and fine‑grained phase overlap can conserve power and improve real‑time responsiveness.

模型特定调优 – 最佳的投机长度预测器是针对每个模型单独训练的；将其扩展到异构模型库可能需要额外的工程工作。
GPU 架构依赖 – 空间复用策略假设有足够的 SM（流式多处理器）来容纳并行的草稿和验证前沿；核心较少的老旧 GPU 可能收益降低。
调度开销 – 动态的每请求决策会增加少量 CPU 开销，在极高请求率下可能成为瓶颈。
未来方向 作者提出包括：
1. 通过强化学习自动化投机长度预测器。
2. 探索多 GPU 协调以实现分布式服务。
3. 将前沿概念扩展到管道的其他阶段，例如 token 后处理或检索增强生成。