[Paper] 从 Tokens 到 Steps：Verification-Aware Speculative Decoding 用于高效多步推理

发布: 3周前 (2026年4月17日 GMT+8 01:20)

7 分钟阅读

原文: arXiv

Source: arXiv - 2604.15244v1

概览

本文介绍了 SpecGuard，这是一种对推测解码的新改进，使大型语言模型（LLMs）能够更快地进行推理，同时不牺牲正确性。SpecGuard 利用模型内部的信号——而非外部奖励模型——来验证生成的每一步，从而在降低推理延迟的同时，实际上提升了多步推理任务的答案质量。

关键贡献

步骤级验证：超越逐标记检查，评估整个推理步骤的一致性。
模型内部验证信号：将基于注意力的 grounding 分数与对数概率置信分数相结合，消除对单独奖励模型的需求。
动态计算分配：当两个信号一致时接受草稿步骤；否则回退到重量级目标模型，在可能的情况下节省计算资源。
实证提升：在多个推理基准上，SpecGuard 将准确率提升约 ~3.6 %，并将延迟降低约 ≈11 %（相较于普通的投机解码）。
通用设计：可与任何草稿/目标模型配对使用，无需任务特定的调优。

方法论

草稿生成：轻量级草稿模型为答案的下一部分抽样多个候选步骤（例如，一小段令牌链）。
一致性选择：在候选中，选择内部最一致的那个——通过注意力模式与原始提示以及先前已接受步骤的相似度来衡量——用于验证。
验证信号
- 基础分数：利用模型的注意力权重量化候选步骤对输入和先前已验证步骤的“回溯”程度。分数高表示该步骤在上下文中有良好的依据。
- 置信分数：计算草稿模型下该步骤中令牌的平均对数概率，反映令牌层面的确定性。
集成决策：将两个分数融合（例如，通过简单的加权求和）。如果综合分数超过阈值，则该步骤 被接受 并追加到输出中。否则，目标（更强）模型将从头重新计算该步骤。
迭代循环：该过程重复进行，直至完整响应生成，仅在草稿存疑时才调用昂贵的目标模型计算资源。

结果与发现

基准	基线 SD 准确率	SpecGuard 准确率	延迟降低
GSM‑8K（算术）	71.2 %	74.8 %（+3.6 %）	~11 %
HotpotQA（多跳）	68.5 %	71.9 %（+3.4 %）	~10 %
MathQA（符号）	64.0 %	67.5 %（+3.5 %）	~12 %

准确率提升 来自于在不一致的草稿步骤传播之前将其捕获，这一问题在基于 token 的推测解码中屡见不鲜。
延迟收益 通过大多数步骤仍然被草稿模型直接接受实现；只有少数步骤需要使用重量级目标模型。
与 基于奖励的推测解码 相比，SpecGuard 在保持或超越性能的同时，避免了额外的前向传播和外部模型维护。

实际影响

更快的 LLM‑驱动助手 API：需要多轮推理的服务（例如代码助手、数据分析机器人）可以更快地提供响应，同时不牺牲正确性。
云 GPU 成本节省：通过将大部分生成工作转移到小的草稿模型，计算费用下降，尤其是在高吞吐量工作负载下。
部署简化：无需托管单独的奖励模型或维护任务特定的奖励函数；所有内容都在现有模型堆栈中运行。
更佳的用户体验：延迟降低带来更流畅的交互体验，同时更高的准确性减少了后处理或用户纠正的需求。
即插即用：该框架适用于任何草稿/目标模型组合（例如 2.7B 的草稿模型和 13B 的目标模型），对已经使用模型集成的组织具有吸引力。

限制与未来工作

阈值敏感性：验证集成的接受阈值是手动调节的；自适应或学习得到的阈值可能提升跨领域的鲁棒性。
对注意力质量的依赖：对于注意力与 grounding 关联度不高的模型（例如大幅剪枝或量化的模型），grounding 分数可能会噪声较大。
多候选采样的可扩展性：每一步采样大量草稿候选会增加开销；更智能的候选选择（例如使用束搜索）是一个待探索的方向。
更广泛的推理模态：本文聚焦于文本推理基准；将其扩展到代码生成、多模态提示或工具使用场景仍有待研究。

SpecGuard 表明，适度的自省——利用模型自身的注意力和置信度——即可使投机解码既更快又更智能，为更具响应性的 LLM 驱动应用打开了实用路径。

作者

Kiran Purohit
Ramasuri Narayanam
Soumyabrata Pal

论文信息

arXiv ID: 2604.15244v1
分类: cs.CL
出版日期: 2026年4月16日
PDF: 下载 PDF

相关文章

阅读更多 »

[Paper] 学习具备洞察的推理用于非形式定理证明

虽然大多数 automated theorem‑proving 方法依赖于 formal proof systems，informal theorem proving 可以更好地与 large language models 的 …

[Paper] 没有普遍礼貌：跨语言、多模型研究礼貌对 LLMs 的影响（使用 PLUM Corpus）

本文探讨了大型语言模型（LLMs）对不同礼貌程度和不礼貌程度的用户提示的响应。礼貌理论由...

[Paper] VEFX-Bench：全方位基准用于通用视频编辑与视觉特效

随着 AI-assisted video creation 越来越实用，instruction-guided video editing 已成为细化生成或捕获的 footage 的关键。

[Paper] 从基准测试到推理：对越南法律文本的双维度大规模 LLM 评估

越南法律文本的复杂性对公众获取司法构成了显著障碍。虽然Large Language Models提供了一种有前景的解决方案……