[Paper] 推测式推测式解码

发布: 2天前 (2026年3月4日 GMT+8 02:41)

9 分钟阅读

原文: arXiv

Source: arXiv - 2603.03251v1

概览

自回归语言模型一次生成一个 token，这使得实时推理极其缓慢。投机解码 通过让一个快速的“草稿”模型提前猜测多个 token，然后用较慢但质量更高的目标模型进行确认，从而加速这一过程。新论文 “Speculative Speculative Decoding” 更进一步：它将 草稿‑验证 循环本身并行化，使系统在检查先前猜测的同时继续进行猜测。作者将此技术称为 Speculative Speculative Decoding (SSD)，并提出了一个名为 Saguaro 的优化实现，能够将现有投机解码器的速度提升一倍，并实现相较于普通自回归生成高达 5× 的吞吐量。

关键贡献

SSD范式: 引入第二层推测，预测验证步骤的结果，使草稿模型能够在前一次验证完成之前开始生成下一批 token。
针对三大SSD挑战的算法解决方案:
1. 推测‑验证依赖: 一种在实际验证的同时并行生成候选验证结果的方法。
2. 候选集合管理: 一种原则性方法，使推测集合足够小以实现快速验证，同时仍覆盖可能的结果。
3. 错误处理: 当实际验证超出预测集合时，使用轻量级回滚/重新草稿机制。
Saguaro实现: 一个端到端系统，构建于流行的开源推理栈之上（如 Hugging Face Transformers、vLLM），以最小的代码改动集成 SSD。
实证加速: 在各种模型规模（7B‑65B）和硬件（GPU、CPU）上，展示出比最佳已发表的推测解码基线快 2×，比纯自回归解码快 5×。
开源发布: 作者提供了 Saguaro 代码库和基准脚本，鼓励社区采纳和进一步研究。

方法论

两阶段推测:
- 草稿模型（快速）: 像往常一样生成一个包含 $k$ 个标记的 推测批次。
- 验证预测器（快速）: 当目标模型仍在验证前一个批次时，一个轻量级预测器（通常是草稿模型的浅拷贝）预测下一个批次的 可能验证结果。该预测器输出一个 候选集合 $\mathcal{C}$，其中包含最有可能被接受的标记序列。
并行验证与推测:
- 目标模型接收实际的草稿批次并产生已验证的标记。
- 同时，草稿模型使用 预测的 验证结果（从 $\mathcal{C}$ 中选取）并开始生成下一个推测批次。
结果匹配:
- 如果真实的验证结果属于 $\mathcal{C}$，系统可以立即返回预先计算好的推测，跳过该批次昂贵的草稿生成步骤。
- 如果结果不在 $\mathcal{C}$ 中，则走回退路径，使用草稿模型重新生成缺失的标记，产生少量惩罚。
候选集合设计:
- 作者在验证预测器上使用 top‑p 采样 来创建一个紧凑的集合，以在覆盖率（高匹配概率）和规模（保持验证廉价）之间取得平衡。
- 他们还引入了 动态预算，根据最近的匹配率自适应调整 $|\mathcal{C}|$，使系统在不同提示下保持稳定。
实现技巧:
- 内核融合 用于草稿模型和预测器的前向传播，以最小化 GPU 内核启动开销。
- 批级推测: SSD 在一批请求上工作，使预测器能够共享工作并提升 GPU 利用率。
- 惰性回滚: 当出现不匹配时，系统仅重新计算缺失的标记，而不是重新运行整个流水线。

结果与发现

Model	Hardware	Baseline (Speculative Decoding)	SSD (Saguaro)	Autoregressive
LLaMA‑7B	A100 40 GB	1.8× speedup over AR	2.0× speedup over AR	1.0×
LLaMA‑13B	A100 80 GB	1.6×	1.9×	1.0×
LLaMA‑65B	8× A100	1.4×	1.8×	1.0×
Throughput (tokens/s)	–	1,200	2,400	480

匹配率: 预测的验证集 $\mathcal{C}$ 在所有模型上捕获真实验证结果的比例约为 92 %，从而保持了较低的回退惩罚。
延迟: 单个 A100 上每个 token 的端到端延迟从约 30 ms（自回归）降至约 6 ms（使用 SSD）。
可扩展性: 当批量大小扩展到 64 token 时，SSD 仍保持优势，表明并行推测不会因更大的批次而退化。

消融实验表明：

移除验证预测器会使加速率降至普通推测解码的水平。
过度缩小 $|\mathcal{C}|$ 会损害匹配率和整体吞吐量。

Practical Implications

实时 LLM 应用： 聊天机器人、代码助手和交互式代理现在可以在普通 GPU 上实现低于 10 ms 的延迟响应，使其在面向消费者的产品中变得可行。
成本降低： 更快的 token 生成直接转化为托管推理服务（例如 SaaS LLM API）的 GPU 小时费用下降。
边缘部署： 由于 SSD 依赖于快速的草稿模型和轻量预测器，开发者可以在服务器上运行重量级目标模型，而将草稿/预测器部署在功耗较低的边缘设备上，从而实现混合云‑边缘推理流水线。
批次层面优化： 该算法天然兼容 vLLM、Triton 或 TensorRT‑LLM 等推理引擎的现有批处理策略，便于无缝集成到生产堆栈中。
兼容量化与剪枝： 由于草稿模型和预测器本身轻量，可进行激进的量化（例如 4‑bit）而不影响最终输出质量，进一步压缩内存占用。

限制与未来工作

依赖良好的草稿模型： SSD 的加速取决于草稿模型相对于目标模型显著更快，同时仍能产生合理的候选。对于非常小的目标模型，相对增益会减小。
预测开销： 验证预测器会增加额外计算；在极低功耗硬件上，额外的前向传播可能抵消收益。
领域不匹配： 当提示分布与训练数据大幅偏离时，预测器的候选集更容易错过真实的验证结果，从而增加回退成本。

作者提出的未来方向：

探索自适应草稿‑预测器共同训练，以更好地对齐它们的 token 分布。
将 SSD 扩展到多模态生成（例如图像描述、代码生成图像），其中验证可能涉及更复杂的约束。
研究与内核级调度的更紧密集成，以进一步降低下一代 GPU 的启动开销。

作者

Tanishq Kumar
Tri Dao
Avner May

论文信息

arXiv ID: 2603.03251v1
分类: cs.LG
出版日期: 2026年3月3日
PDF: 下载 PDF

[Paper] 推测式推测式解码

概览

关键贡献

方法论

结果与发现

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[论文] SimpliHuMoN: 简化人体动作预测

【论文】SELDON：深度 ODE 网络学习的超新星爆炸

[Paper] ZipMap：线性时间有状态3D重建与测试时训练

[Paper] 将信任转化为交易：追踪联盟营销与FTC合规在YouTube的网红经济