[Paper] 在验证中使用稀疏计算加速投机解码

发布: 1个月前 (2025年12月26日 GMT+8 15:53)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.21911v1

概述

本文解决了 speculative decoding 中一个隐藏的性能瓶颈——该技术通过让模型一次“猜测”多个 token 并并行验证，从而加速大规模语言模型（LLM）的推理。虽然猜测步骤很快，但验证步骤往往占据大部分运行时间，尤其是在处理长输入或 mixture‑of‑experts（MoE）模型时。作者提出了 sparse verification framework，在 attention、feed‑forward 和 MoE 层中裁剪不必要的计算，在不牺牲答案质量的前提下实现了显著的加速。

关键贡献

系统化的验证稀疏化: 针对推测解码（speculative decoding）的验证阶段，适配并评估了多种稀疏方法（结构化剪枝、top‑k 选择等）。
模型组件间的联合稀疏化: 同时对注意力（attention）、前馈网络（FFNs）和 MoE 路由进行稀疏化，揭示了先前基于 token 级稀疏化工作未发现的冗余。
草稿 token 与层间的复用: 在草稿 token 之间以及跨 Transformer 层复用中间结果，削减重复计算且无需额外训练。
广泛的实证验证: 在摘要、问答和数学推理基准上进行实验，展示了有利的效率‑精度权衡以及稳定的“接受长度”（即通过验证的草稿 token 数量）。

方法论

投机解码回顾 – 模型首先使用快速、轻量的解码器生成 draft（草稿）标记。随后进行一次 verification（验证）过程，在相同上下文加上草稿标记的情况下运行完整的 LLM，以确认哪些标记是正确的。
识别冗余 – 作者在长上下文和 MoE 模型上对验证过程进行剖析，发现许多注意力头、FFN 神经元以及专家路由对草稿标记的最终 logits 贡献很小。
稀疏验证引擎
- 注意力稀疏性： 基于廉价的相关性评分，对每个查询仅保留 top‑k 键/值（结构化块稀疏）。
- FFN 稀疏性： 对隐藏维度进行基于幅度的剪枝，仅重新激活每层最有影响力的神经元。
- MoE 稀疏性： 限制每个标记咨询的专家数量（动态 top‑k 路由），并在运行时剪除权重低的专家参数。
复用策略
- 草稿标记间复用： 缓存在草稿标记之间相同的注意力分数和中间激活，避免重复计算。
- 层间复用： 当计算模式重复时，将早期层的缓存激活传播到后续层。
无需额外训练 – 所有稀疏决策均在推理时使用轻量启发式方法完成，模型可以保持原样部署。

结果与发现

任务	模型	基线（推测）	稀疏验证	加速*	准确率 Δ
摘要（XSum）	LLaMA‑7B	比 vanilla 提升 1.8×	2.4×	+33%	–0.2 % ROUGE
问答（SQuAD）	MoE‑GLaM‑1.2B	2.1×	2.9×	+38%	–0.1 % EM
数学（MATH）	LLaMA‑13B	1.6×	2.2×	+38%	–0.3 % 准确率

*加速是相对于标准自回归解码的总推理时间（草稿 + 验证）测得的。

稳定的接受长度： 每次验证通过接受的草稿标记数量基本保持不变，这意味着稀疏性不会迫使系统回退到逐标记解码。
效率‑准确度权衡： 通过调整稀疏性超参数（例如 top‑k 大小），开发者可以自行设定所需的平衡——以更高的速度换取适度的指标下降，或以适度的提升获得接近完整准确度。

Practical Implications

Faster LLM APIs: 云服务提供商可以集成稀疏验证，以降低已经使用投机解码的服务（例如聊天助手、代码补全）的延迟。
Cost savings on MoE deployments: MoE 模型因每个 token 需要路由大量专家而成本高昂；对验证步骤进行稀疏化可减少 GPU 内存带宽和计算量，从而降低运营成本。
Edge‑friendly inference: 该方法仅需推理时的启发式策略，兼容现有模型检查点和硬件加速器，无需重新训练。
Scalable to longer contexts: 随着提示长度增长（例如文档级摘要），验证成为瓶颈；稀疏验证可以缓解这一问题，使得在 8‑16 k token 窗口下仍能实现实时性能。

限制与未来工作

启发式敏感性: 稀疏阈值（top‑k 值）需要手动调节；设置不佳会影响准确性，尤其是在细粒度推理任务上。
硬件特定收益: 报告的加速假设使用了具有效率稀疏内核的 GPU；在较旧硬件上收益可能较小。
无训练时稀疏: 虽然无需重新训练是一个优势，但该方法无法利用在微调期间可学习的模型特定稀疏模式。
未来方向: 作者建议通过强化学习学习自适应稀疏策略，将框架扩展到多模态模型，并与其他推理加速器（如 FlashAttention）集成。

作者

Jikai Wang
Jianchao Tan
Yuxuan Hu
Jiayu Qin
Yerui Sun
Yuchen Xie
Xunliang Cai
Juntao Li
Min Zhang

论文信息

arXiv ID: 2512.21911v1
分类: cs.CL
出版日期: 2025年12月26日
PDF: 下载 PDF

[Paper] 在验证中使用稀疏计算加速投机解码

概述

关键贡献

方法论

结果与发现

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[Paper] A2P-Vis：一种分析器到呈现器的代理管道，用于视觉洞察生成与报告

[Paper] 介绍 TrGLUE 与 SentiTurca：土耳其语通用语言理解与情感分析的综合基准

[Paper] 统一学习动力学与泛化的Transformer缩放定律

[Paper] 将上下文作为工具：长时程 SWE-Agents 的上下文管理