[Paper] 从 Tokens 到 Steps:Verification-Aware Speculative Decoding 用于高效多步推理

发布: (2026年4月17日 GMT+8 01:20)
7 分钟阅读
原文: arXiv

Source: arXiv - 2604.15244v1

概览

本文介绍了 SpecGuard,这是一种对推测解码的新改进,使大型语言模型(LLMs)能够更快地进行推理,同时不牺牲正确性。SpecGuard 利用模型内部的信号——而非外部奖励模型——来验证生成的每一步,从而在降低推理延迟的同时,实际上提升了多步推理任务的答案质量。

关键贡献

  • 步骤级验证:超越逐标记检查,评估整个推理步骤的一致性。
  • 模型内部验证信号:将基于注意力的 grounding 分数与对数概率置信分数相结合,消除对单独奖励模型的需求。
  • 动态计算分配:当两个信号一致时接受草稿步骤;否则回退到重量级目标模型,在可能的情况下节省计算资源。
  • 实证提升:在多个推理基准上,SpecGuard 将准确率提升约 ~3.6 %,并将延迟降低约 ≈11 %(相较于普通的投机解码)。
  • 通用设计:可与任何草稿/目标模型配对使用,无需任务特定的调优。

方法论

  1. 草稿生成:轻量级草稿模型为答案的下一部分抽样 多个 候选步骤(例如,一小段令牌链)。
  2. 一致性选择:在候选中,选择内部最一致的那个——通过注意力模式与原始提示以及先前已接受步骤的相似度来衡量——用于验证。
  3. 验证信号
    • 基础分数:利用模型的注意力权重量化候选步骤对输入和先前已验证步骤的“回溯”程度。分数高表示该步骤在上下文中有良好的依据。
    • 置信分数:计算草稿模型下该步骤中令牌的平均对数概率,反映令牌层面的确定性。
  4. 集成决策:将两个分数融合(例如,通过简单的加权求和)。如果综合分数超过阈值,则该步骤 被接受 并追加到输出中。否则,目标(更强)模型将从头重新计算该步骤。
  5. 迭代循环:该过程重复进行,直至完整响应生成,仅在草稿存疑时才调用昂贵的目标模型计算资源。

结果与发现

基准基线 SD 准确率SpecGuard 准确率延迟降低
GSM‑8K(算术)71.2 %74.8 %(+3.6 %)~11 %
HotpotQA(多跳)68.5 %71.9 %(+3.4 %)~10 %
MathQA(符号)64.0 %67.5 %(+3.5 %)~12 %
  • 准确率提升 来自于在不一致的草稿步骤传播之前将其捕获,这一问题在基于 token 的推测解码中屡见不鲜。
  • 延迟收益 通过大多数步骤仍然被草稿模型直接接受实现;只有少数步骤需要使用重量级目标模型。
  • 基于奖励的推测解码 相比,SpecGuard 在保持或超越性能的同时,避免了额外的前向传播和外部模型维护。

实际影响

  • 更快的 LLM‑驱动助手 API:需要多轮推理的服务(例如代码助手、数据分析机器人)可以更快地提供响应,同时不牺牲正确性。
  • 云 GPU 成本节省:通过将大部分生成工作转移到小的草稿模型,计算费用下降,尤其是在高吞吐量工作负载下。
  • 部署简化:无需托管单独的奖励模型或维护任务特定的奖励函数;所有内容都在现有模型堆栈中运行。
  • 更佳的用户体验:延迟降低带来更流畅的交互体验,同时更高的准确性减少了后处理或用户纠正的需求。
  • 即插即用:该框架适用于任何草稿/目标模型组合(例如 2.7B 的草稿模型和 13B 的目标模型),对已经使用模型集成的组织具有吸引力。

限制与未来工作

  • 阈值敏感性:验证集成的接受阈值是手动调节的;自适应或学习得到的阈值可能提升跨领域的鲁棒性。
  • 对注意力质量的依赖:对于注意力与 grounding 关联度不高的模型(例如大幅剪枝或量化的模型),grounding 分数可能会噪声较大。
  • 多候选采样的可扩展性:每一步采样大量草稿候选会增加开销;更智能的候选选择(例如使用束搜索)是一个待探索的方向。
  • 更广泛的推理模态:本文聚焦于文本推理基准;将其扩展到代码生成、多模态提示或工具使用场景仍有待研究。

SpecGuard 表明,适度的自省——利用模型自身的注意力和置信度——即可使投机解码既更快又更智能,为更具响应性的 LLM 驱动应用打开了实用路径。

作者

  • Kiran Purohit
  • Ramasuri Narayanam
  • Soumyabrata Pal

论文信息

  • arXiv ID: 2604.15244v1
  • 分类: cs.CL
  • 出版日期: 2026年4月16日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »