[Paper] 在验证中使用稀疏计算加速投机解码

发布: (2025年12月26日 GMT+8 15:53)
7 min read
原文: arXiv

Source: arXiv - 2512.21911v1

概述

本文解决了 speculative decoding 中一个隐藏的性能瓶颈——该技术通过让模型一次“猜测”多个 token 并并行验证,从而加速大规模语言模型(LLM)的推理。虽然猜测步骤很快,但验证步骤往往占据大部分运行时间,尤其是在处理长输入或 mixture‑of‑experts(MoE)模型时。作者提出了 sparse verification framework,在 attention、feed‑forward 和 MoE 层中裁剪不必要的计算,在不牺牲答案质量的前提下实现了显著的加速。

关键贡献

  • 系统化的验证稀疏化: 针对推测解码(speculative decoding)的验证阶段,适配并评估了多种稀疏方法(结构化剪枝、top‑k 选择等)。
  • 模型组件间的联合稀疏化: 同时对注意力(attention)、前馈网络(FFNs)和 MoE 路由进行稀疏化,揭示了先前基于 token 级稀疏化工作未发现的冗余。
  • 草稿 token 与层间的复用: 在草稿 token 之间以及跨 Transformer 层复用中间结果,削减重复计算且无需额外训练。
  • 广泛的实证验证: 在摘要、问答和数学推理基准上进行实验,展示了有利的效率‑精度权衡以及稳定的“接受长度”(即通过验证的草稿 token 数量)。

方法论

  1. 投机解码回顾 – 模型首先使用快速、轻量的解码器生成 draft(草稿)标记。随后进行一次 verification(验证)过程,在相同上下文加上草稿标记的情况下运行完整的 LLM,以确认哪些标记是正确的。
  2. 识别冗余 – 作者在长上下文和 MoE 模型上对验证过程进行剖析,发现许多注意力头、FFN 神经元以及专家路由对草稿标记的最终 logits 贡献很小。
  3. 稀疏验证引擎
    • 注意力稀疏性: 基于廉价的相关性评分,对每个查询仅保留 top‑k 键/值(结构化块稀疏)。
    • FFN 稀疏性: 对隐藏维度进行基于幅度的剪枝,仅重新激活每层最有影响力的神经元。
    • MoE 稀疏性: 限制每个标记咨询的专家数量(动态 top‑k 路由),并在运行时剪除权重低的专家参数。
  4. 复用策略
    • 草稿标记间复用: 缓存在草稿标记之间相同的注意力分数和中间激活,避免重复计算。
    • 层间复用: 当计算模式重复时,将早期层的缓存激活传播到后续层。
  5. 无需额外训练 – 所有稀疏决策均在推理时使用轻量启发式方法完成,模型可以保持原样部署。

结果与发现

任务模型基线(推测)稀疏验证加速*准确率 Δ
摘要(XSum)LLaMA‑7B比 vanilla 提升 1.8×2.4×+33%–0.2 % ROUGE
问答(SQuAD)MoE‑GLaM‑1.2B2.1×2.9×+38%–0.1 % EM
数学(MATH)LLaMA‑13B1.6×2.2×+38%–0.3 % 准确率

*加速是相对于标准自回归解码的总推理时间(草稿 + 验证)测得的。

  • 稳定的接受长度: 每次验证通过接受的草稿标记数量基本保持不变,这意味着稀疏性不会迫使系统回退到逐标记解码。
  • 效率‑准确度权衡: 通过调整稀疏性超参数(例如 top‑k 大小),开发者可以自行设定所需的平衡——以更高的速度换取适度的指标下降,或以适度的提升获得接近完整准确度。

Practical Implications

  • Faster LLM APIs: 云服务提供商可以集成稀疏验证,以降低已经使用投机解码的服务(例如聊天助手、代码补全)的延迟。
  • Cost savings on MoE deployments: MoE 模型因每个 token 需要路由大量专家而成本高昂;对验证步骤进行稀疏化可减少 GPU 内存带宽和计算量,从而降低运营成本。
  • Edge‑friendly inference: 该方法仅需推理时的启发式策略,兼容现有模型检查点和硬件加速器,无需重新训练。
  • Scalable to longer contexts: 随着提示长度增长(例如文档级摘要),验证成为瓶颈;稀疏验证可以缓解这一问题,使得在 8‑16 k token 窗口下仍能实现实时性能。

限制与未来工作

  • 启发式敏感性: 稀疏阈值(top‑k 值)需要手动调节;设置不佳会影响准确性,尤其是在细粒度推理任务上。
  • 硬件特定收益: 报告的加速假设使用了具有效率稀疏内核的 GPU;在较旧硬件上收益可能较小。
  • 无训练时稀疏: 虽然无需重新训练是一个优势,但该方法无法利用在微调期间可学习的模型特定稀疏模式。
  • 未来方向: 作者建议通过强化学习学习自适应稀疏策略,将框架扩展到多模态模型,并与其他推理加速器(如 FlashAttention)集成。

作者

  • Jikai Wang
  • Jianchao Tan
  • Yuxuan Hu
  • Jiayu Qin
  • Yerui Sun
  • Yuchen Xie
  • Xunliang Cai
  • Juntao Li
  • Min Zhang

论文信息

  • arXiv ID: 2512.21911v1
  • 分类: cs.CL
  • 出版日期: 2025年12月26日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »