[Paper] 推测式 推测式 解码

发布: (2026年3月4日 GMT+8 02:41)
9 分钟阅读
原文: arXiv

Source: arXiv - 2603.03251v1

概览

自回归语言模型一次生成一个 token,这使得实时推理极其缓慢。投机解码 通过让一个快速的“草稿”模型提前猜测多个 token,然后用较慢但质量更高的目标模型进行确认,从而加速这一过程。新论文 “Speculative Speculative Decoding” 更进一步:它将 草稿‑验证 循环本身并行化,使系统在检查先前猜测的同时继续进行猜测。作者将此技术称为 Speculative Speculative Decoding (SSD),并提出了一个名为 Saguaro 的优化实现,能够将现有投机解码器的速度提升一倍,并实现相较于普通自回归生成高达 的吞吐量。

关键贡献

  • SSD范式: 引入第二层推测,预测验证步骤的结果,使草稿模型能够在前一次验证完成之前开始生成下一批 token。
  • 针对三大SSD挑战的算法解决方案:
    1. 推测‑验证依赖: 一种在实际验证的同时并行生成候选验证结果的方法。
    2. 候选集合管理: 一种原则性方法,使推测集合足够小以实现快速验证,同时仍覆盖可能的结果。
    3. 错误处理: 当实际验证超出预测集合时,使用轻量级回滚/重新草稿机制。
  • Saguaro实现: 一个端到端系统,构建于流行的开源推理栈之上(如 Hugging Face Transformers、vLLM),以最小的代码改动集成 SSD。
  • 实证加速: 在各种模型规模(7B‑65B)和硬件(GPU、CPU)上,展示出比最佳已发表的推测解码基线快 ,比纯自回归解码快
  • 开源发布: 作者提供了 Saguaro 代码库和基准脚本,鼓励社区采纳和进一步研究。

方法论

  1. 两阶段推测:

    • 草稿模型(快速): 像往常一样生成一个包含 $k$ 个标记的 推测批次
    • 验证预测器(快速): 当目标模型仍在验证前一个批次时,一个轻量级预测器(通常是草稿模型的浅拷贝)预测下一个批次的 可能验证结果。该预测器输出一个 候选集合 $\mathcal{C}$,其中包含最有可能被接受的标记序列。
  2. 并行验证与推测:

    • 目标模型接收 实际 的草稿批次并产生已验证的标记。
    • 同时,草稿模型使用 预测的 验证结果(从 $\mathcal{C}$ 中选取)并开始生成下一个推测批次。
  3. 结果匹配:

    • 如果真实的验证结果属于 $\mathcal{C}$,系统可以立即返回预先计算好的推测,跳过该批次昂贵的草稿生成步骤。
    • 如果结果不在 $\mathcal{C}$ 中,则走回退路径,使用草稿模型重新生成缺失的标记,产生少量惩罚。
  4. 候选集合设计:

    • 作者在验证预测器上使用 top‑p 采样 来创建一个紧凑的集合,以在覆盖率(高匹配概率)和规模(保持验证廉价)之间取得平衡。
    • 他们还引入了 动态预算,根据最近的匹配率自适应调整 $|\mathcal{C}|$,使系统在不同提示下保持稳定。
  5. 实现技巧:

    • 内核融合 用于草稿模型和预测器的前向传播,以最小化 GPU 内核启动开销。
    • 批级推测: SSD 在一批请求上工作,使预测器能够共享工作并提升 GPU 利用率。
    • 惰性回滚: 当出现不匹配时,系统仅重新计算缺失的标记,而不是重新运行整个流水线。

结果与发现

ModelHardwareBaseline (Speculative Decoding)SSD (Saguaro)Autoregressive
LLaMA‑7BA100 40 GB1.8× speedup over AR2.0× speedup over AR1.0×
LLaMA‑13BA100 80 GB1.6×1.9×1.0×
LLaMA‑65B8× A1001.4×1.8×1.0×
Throughput (tokens/s)1,2002,400480
  • 匹配率: 预测的验证集 $\mathcal{C}$ 在所有模型上捕获真实验证结果的比例约为 92 %,从而保持了较低的回退惩罚。
  • 延迟: 单个 A100 上每个 token 的端到端延迟从约 30 ms(自回归)降至约 6 ms(使用 SSD)。
  • 可扩展性: 当批量大小扩展到 64 token 时,SSD 仍保持优势,表明并行推测不会因更大的批次而退化。

消融实验表明:

  • 移除验证预测器会使加速率降至普通推测解码的水平。
  • 过度缩小 $|\mathcal{C}|$ 会损害匹配率和整体吞吐量。

Practical Implications

  1. 实时 LLM 应用: 聊天机器人、代码助手和交互式代理现在可以在普通 GPU 上实现低于 10 ms 的延迟响应,使其在面向消费者的产品中变得可行。
  2. 成本降低: 更快的 token 生成直接转化为托管推理服务(例如 SaaS LLM API)的 GPU 小时费用下降。
  3. 边缘部署: 由于 SSD 依赖于 快速 的草稿模型和轻量预测器,开发者可以在服务器上运行重量级目标模型,而将草稿/预测器部署在功耗较低的边缘设备上,从而实现混合云‑边缘推理流水线。
  4. 批次层面优化: 该算法天然兼容 vLLM、Triton 或 TensorRT‑LLM 等推理引擎的现有批处理策略,便于无缝集成到生产堆栈中。
  5. 兼容量化与剪枝: 由于草稿模型和预测器本身轻量,可进行激进的量化(例如 4‑bit)而不影响最终输出质量,进一步压缩内存占用。

限制与未来工作

  • 依赖良好的草稿模型: SSD 的加速取决于草稿模型相对于目标模型显著更快,同时仍能产生合理的候选。对于非常小的目标模型,相对增益会减小。
  • 预测开销: 验证预测器会增加额外计算;在极低功耗硬件上,额外的前向传播可能抵消收益。
  • 领域不匹配: 当提示分布与训练数据大幅偏离时,预测器的候选集更容易错过真实的验证结果,从而增加回退成本。

作者提出的未来方向:

  • 探索自适应草稿‑预测器共同训练,以更好地对齐它们的 token 分布。
  • 将 SSD 扩展到多模态生成(例如图像描述、代码生成图像),其中验证可能涉及更复杂的约束。
  • 研究与内核级调度的更紧密集成,以进一步降低下一代 GPU 的启动开销。

作者

  • Tanishq Kumar
  • Tri Dao
  • Avner May

论文信息

  • arXiv ID: 2603.03251v1
  • 分类: cs.LG
  • 出版日期: 2026年3月3日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »

[论文] SimpliHuMoN: 简化人体动作预测

Human motion prediction 将轨迹预测(trajectory forecasting)和人体姿态预测(human pose prediction)这两个任务结合在一起。针对这两个任务,已经开发了专门的模型……