[Paper] 推测式 推测式 解码
发布: (2026年3月4日 GMT+8 02:41)
9 分钟阅读
原文: arXiv
Source: arXiv - 2603.03251v1
概览
自回归语言模型一次生成一个 token,这使得实时推理极其缓慢。投机解码 通过让一个快速的“草稿”模型提前猜测多个 token,然后用较慢但质量更高的目标模型进行确认,从而加速这一过程。新论文 “Speculative Speculative Decoding” 更进一步:它将 草稿‑验证 循环本身并行化,使系统在检查先前猜测的同时继续进行猜测。作者将此技术称为 Speculative Speculative Decoding (SSD),并提出了一个名为 Saguaro 的优化实现,能够将现有投机解码器的速度提升一倍,并实现相较于普通自回归生成高达 5× 的吞吐量。
关键贡献
- SSD范式: 引入第二层推测,预测验证步骤的结果,使草稿模型能够在前一次验证完成之前开始生成下一批 token。
- 针对三大SSD挑战的算法解决方案:
- 推测‑验证依赖: 一种在实际验证的同时并行生成候选验证结果的方法。
- 候选集合管理: 一种原则性方法,使推测集合足够小以实现快速验证,同时仍覆盖可能的结果。
- 错误处理: 当实际验证超出预测集合时,使用轻量级回滚/重新草稿机制。
- Saguaro实现: 一个端到端系统,构建于流行的开源推理栈之上(如 Hugging Face Transformers、vLLM),以最小的代码改动集成 SSD。
- 实证加速: 在各种模型规模(7B‑65B)和硬件(GPU、CPU)上,展示出比最佳已发表的推测解码基线快 2×,比纯自回归解码快 5×。
- 开源发布: 作者提供了 Saguaro 代码库和基准脚本,鼓励社区采纳和进一步研究。
方法论
-
两阶段推测:
- 草稿模型(快速): 像往常一样生成一个包含 $k$ 个标记的 推测批次。
- 验证预测器(快速): 当目标模型仍在验证前一个批次时,一个轻量级预测器(通常是草稿模型的浅拷贝)预测下一个批次的 可能验证结果。该预测器输出一个 候选集合 $\mathcal{C}$,其中包含最有可能被接受的标记序列。
-
并行验证与推测:
- 目标模型接收 实际 的草稿批次并产生已验证的标记。
- 同时,草稿模型使用 预测的 验证结果(从 $\mathcal{C}$ 中选取)并开始生成下一个推测批次。
-
结果匹配:
- 如果真实的验证结果属于 $\mathcal{C}$,系统可以立即返回预先计算好的推测,跳过该批次昂贵的草稿生成步骤。
- 如果结果不在 $\mathcal{C}$ 中,则走回退路径,使用草稿模型重新生成缺失的标记,产生少量惩罚。
-
候选集合设计:
- 作者在验证预测器上使用 top‑p 采样 来创建一个紧凑的集合,以在覆盖率(高匹配概率)和规模(保持验证廉价)之间取得平衡。
- 他们还引入了 动态预算,根据最近的匹配率自适应调整 $|\mathcal{C}|$,使系统在不同提示下保持稳定。
-
实现技巧:
- 内核融合 用于草稿模型和预测器的前向传播,以最小化 GPU 内核启动开销。
- 批级推测: SSD 在一批请求上工作,使预测器能够共享工作并提升 GPU 利用率。
- 惰性回滚: 当出现不匹配时,系统仅重新计算缺失的标记,而不是重新运行整个流水线。
结果与发现
| Model | Hardware | Baseline (Speculative Decoding) | SSD (Saguaro) | Autoregressive |
|---|---|---|---|---|
| LLaMA‑7B | A100 40 GB | 1.8× speedup over AR | 2.0× speedup over AR | 1.0× |
| LLaMA‑13B | A100 80 GB | 1.6× | 1.9× | 1.0× |
| LLaMA‑65B | 8× A100 | 1.4× | 1.8× | 1.0× |
| Throughput (tokens/s) | – | 1,200 | 2,400 | 480 |
- 匹配率: 预测的验证集 $\mathcal{C}$ 在所有模型上捕获真实验证结果的比例约为 92 %,从而保持了较低的回退惩罚。
- 延迟: 单个 A100 上每个 token 的端到端延迟从约 30 ms(自回归)降至约 6 ms(使用 SSD)。
- 可扩展性: 当批量大小扩展到 64 token 时,SSD 仍保持优势,表明并行推测不会因更大的批次而退化。
消融实验表明:
- 移除验证预测器会使加速率降至普通推测解码的水平。
- 过度缩小 $|\mathcal{C}|$ 会损害匹配率和整体吞吐量。
Practical Implications
- 实时 LLM 应用: 聊天机器人、代码助手和交互式代理现在可以在普通 GPU 上实现低于 10 ms 的延迟响应,使其在面向消费者的产品中变得可行。
- 成本降低: 更快的 token 生成直接转化为托管推理服务(例如 SaaS LLM API)的 GPU 小时费用下降。
- 边缘部署: 由于 SSD 依赖于 快速 的草稿模型和轻量预测器,开发者可以在服务器上运行重量级目标模型,而将草稿/预测器部署在功耗较低的边缘设备上,从而实现混合云‑边缘推理流水线。
- 批次层面优化: 该算法天然兼容 vLLM、Triton 或 TensorRT‑LLM 等推理引擎的现有批处理策略,便于无缝集成到生产堆栈中。
- 兼容量化与剪枝: 由于草稿模型和预测器本身轻量,可进行激进的量化(例如 4‑bit)而不影响最终输出质量,进一步压缩内存占用。
限制与未来工作
- 依赖良好的草稿模型: SSD 的加速取决于草稿模型相对于目标模型显著更快,同时仍能产生合理的候选。对于非常小的目标模型,相对增益会减小。
- 预测开销: 验证预测器会增加额外计算;在极低功耗硬件上,额外的前向传播可能抵消收益。
- 领域不匹配: 当提示分布与训练数据大幅偏离时,预测器的候选集更容易错过真实的验证结果,从而增加回退成本。
作者提出的未来方向:
- 探索自适应草稿‑预测器共同训练,以更好地对齐它们的 token 分布。
- 将 SSD 扩展到多模态生成(例如图像描述、代码生成图像),其中验证可能涉及更复杂的约束。
- 研究与内核级调度的更紧密集成,以进一步降低下一代 GPU 的启动开销。
作者
- Tanishq Kumar
- Tri Dao
- Avner May
论文信息
- arXiv ID: 2603.03251v1
- 分类: cs.LG
- 出版日期: 2026年3月3日
- PDF: 下载 PDF