[Paper] 在验证中使用稀疏计算加速投机解码
发布: (2025年12月26日 GMT+8 15:53)
7 min read
原文: arXiv
Source: arXiv - 2512.21911v1
概述
本文解决了 speculative decoding 中一个隐藏的性能瓶颈——该技术通过让模型一次“猜测”多个 token 并并行验证,从而加速大规模语言模型(LLM)的推理。虽然猜测步骤很快,但验证步骤往往占据大部分运行时间,尤其是在处理长输入或 mixture‑of‑experts(MoE)模型时。作者提出了 sparse verification framework,在 attention、feed‑forward 和 MoE 层中裁剪不必要的计算,在不牺牲答案质量的前提下实现了显著的加速。
关键贡献
- 系统化的验证稀疏化: 针对推测解码(speculative decoding)的验证阶段,适配并评估了多种稀疏方法(结构化剪枝、top‑k 选择等)。
- 模型组件间的联合稀疏化: 同时对注意力(attention)、前馈网络(FFNs)和 MoE 路由进行稀疏化,揭示了先前基于 token 级稀疏化工作未发现的冗余。
- 草稿 token 与层间的复用: 在草稿 token 之间以及跨 Transformer 层复用中间结果,削减重复计算且无需额外训练。
- 广泛的实证验证: 在摘要、问答和数学推理基准上进行实验,展示了有利的效率‑精度权衡以及稳定的“接受长度”(即通过验证的草稿 token 数量)。
方法论
- 投机解码回顾 – 模型首先使用快速、轻量的解码器生成 draft(草稿)标记。随后进行一次 verification(验证)过程,在相同上下文加上草稿标记的情况下运行完整的 LLM,以确认哪些标记是正确的。
- 识别冗余 – 作者在长上下文和 MoE 模型上对验证过程进行剖析,发现许多注意力头、FFN 神经元以及专家路由对草稿标记的最终 logits 贡献很小。
- 稀疏验证引擎
- 注意力稀疏性: 基于廉价的相关性评分,对每个查询仅保留 top‑k 键/值(结构化块稀疏)。
- FFN 稀疏性: 对隐藏维度进行基于幅度的剪枝,仅重新激活每层最有影响力的神经元。
- MoE 稀疏性: 限制每个标记咨询的专家数量(动态 top‑k 路由),并在运行时剪除权重低的专家参数。
- 复用策略
- 草稿标记间复用: 缓存在草稿标记之间相同的注意力分数和中间激活,避免重复计算。
- 层间复用: 当计算模式重复时,将早期层的缓存激活传播到后续层。
- 无需额外训练 – 所有稀疏决策均在推理时使用轻量启发式方法完成,模型可以保持原样部署。
结果与发现
| 任务 | 模型 | 基线(推测) | 稀疏验证 | 加速* | 准确率 Δ |
|---|---|---|---|---|---|
| 摘要(XSum) | LLaMA‑7B | 比 vanilla 提升 1.8× | 2.4× | +33% | –0.2 % ROUGE |
| 问答(SQuAD) | MoE‑GLaM‑1.2B | 2.1× | 2.9× | +38% | –0.1 % EM |
| 数学(MATH) | LLaMA‑13B | 1.6× | 2.2× | +38% | –0.3 % 准确率 |
*加速是相对于标准自回归解码的总推理时间(草稿 + 验证)测得的。
- 稳定的接受长度: 每次验证通过接受的草稿标记数量基本保持不变,这意味着稀疏性不会迫使系统回退到逐标记解码。
- 效率‑准确度权衡: 通过调整稀疏性超参数(例如 top‑k 大小),开发者可以自行设定所需的平衡——以更高的速度换取适度的指标下降,或以适度的提升获得接近完整准确度。
Practical Implications
- Faster LLM APIs: 云服务提供商可以集成稀疏验证,以降低已经使用投机解码的服务(例如聊天助手、代码补全)的延迟。
- Cost savings on MoE deployments: MoE 模型因每个 token 需要路由大量专家而成本高昂;对验证步骤进行稀疏化可减少 GPU 内存带宽和计算量,从而降低运营成本。
- Edge‑friendly inference: 该方法仅需推理时的启发式策略,兼容现有模型检查点和硬件加速器,无需重新训练。
- Scalable to longer contexts: 随着提示长度增长(例如文档级摘要),验证成为瓶颈;稀疏验证可以缓解这一问题,使得在 8‑16 k token 窗口下仍能实现实时性能。
限制与未来工作
- 启发式敏感性: 稀疏阈值(top‑k 值)需要手动调节;设置不佳会影响准确性,尤其是在细粒度推理任务上。
- 硬件特定收益: 报告的加速假设使用了具有效率稀疏内核的 GPU;在较旧硬件上收益可能较小。
- 无训练时稀疏: 虽然无需重新训练是一个优势,但该方法无法利用在微调期间可学习的模型特定稀疏模式。
- 未来方向: 作者建议通过强化学习学习自适应稀疏策略,将框架扩展到多模态模型,并与其他推理加速器(如 FlashAttention)集成。
作者
- Jikai Wang
- Jianchao Tan
- Yuxuan Hu
- Jiayu Qin
- Yerui Sun
- Yuchen Xie
- Xunliang Cai
- Juntao Li
- Min Zhang
论文信息
- arXiv ID: 2512.21911v1
- 分类: cs.CL
- 出版日期: 2025年12月26日
- PDF: 下载 PDF