[Paper] 快速失败,赢取巨大成功:重新思考 Speculative Decoding 中的 Drafting 策略 via Diffusion LLMs

发布: (2025年12月24日 GMT+8 02:16)
7 min read
原文: arXiv

请提供您希望翻译的具体文本内容(例如摘要、正文或其他段落),我会在保持原始格式、Markdown 语法和技术术语不变的前提下,将其翻译成简体中文。谢谢!

概览

本文介绍了 FailFast,一种新的投机解码框架,它将快速的并行扩散式语言模型(dLLMs)与传统的自回归(AR)验证器相结合。通过动态调整在验证之前草拟的 token 数量,FailFast 将 dLLMs 的速度转化为实际优势,实现了对标准 AR 大语言模型的无损加速,且无需额外的微调。

关键贡献

  • 动态推测长度: “快速失败,大幅获胜”策略,在难以预测的区域缩短草稿,在 dLLM 有信心的地方积极延长草稿。
  • 将扩散 LLM 作为草稿生成器的集成: 证明了先前被认为噪声过大而无法单独使用的 dLLM 可以在推测解码中作为高吞吐量的草稿生成器。
  • 无损加速: 实现了比普通 AR 解码快 4.9×,比最佳朴素 dLLM 草稿器快 1.7×,比最先进的 EAGLE‑3 快 1.4×,且保持原模型输出质量。
  • 开源实现: 作者发布了完整的 FailFast 代码库,支持即时实验和采用。

Source:

方法论

  1. 投机解码入门 – 在投机解码中,快速的“草稿”模型会提出一系列标记,随后由准确但较慢的自回归(AR)验证器进行检查。如果验证器接受草稿,则这些标记直接输出,无需额外计算;否则,验证器会对被拒绝的片段回退到标准解码。
  2. 为什么使用扩散 LLM? – 扩散 LLM(dLLM)通过从扩散过程采样,以并行方式生成大量标记,使得每个标记的生成速度比 AR 模型快几个数量级,但其输出更嘈杂。
  3. FailFast 的核心循环
    • 预测难度: 系统使用简单启发式(例如标记熵、过去的接受率)估计即将出现的上下文的“可投机性”。
    • 调整草稿长度: 如果该区域看起来容易,FailFast 会让 dLLM 起草一个较长的块(最多约 70 个标记)。如果该区域看起来困难,则缩短草稿长度,以保持验证延迟低。
    • 快速失败: 当草稿被拒绝时,验证器只需处理一个小窗口,从而限制了浪费的计算。
  4. 无需微调: dLLM 和 AR 验证器均使用即插即用的模型;FailFast 只额外加入一个轻量级控制器,实时决定草稿长度。

结果与发现

指标Vanilla AR DecodingNaive dLLM DraftingEAGLE‑3FailFast
加速比 (×)1.02.83.54.9
平均草稿长度12 tokens30 tokens≈70 tokens (在容易的区域)
质量 (perplexity / BLEU)BaselineSlight degradationNear‑baselineLossless (identical to AR)
被拒绝时浪费的计算0% (AR)~35%~20%<10%

关键要点

  • 动态长度策略显著减少了昂贵的验证器调用次数。
  • 即使草稿非常长,最终输出仍与原始 AR 模型的质量相匹配,证明 dLLM 草稿仅是 加速 的捷径,而非质量妥协。

实际影响

  • 更快的推理用于生产 LLM 服务: 部署者可以在不牺牲答案正确性的前提下,将延迟和 GPU 成本降低至最高 5 倍,这直接转化为更低的 API 价格。
  • 可扩展的批量生成: 由于 dLLM 能并行生成 token,FailFast 在高吞吐量的批处理任务(例如对数千篇文档进行摘要)中表现尤为出色。
  • 简化的流水线: 无需微调单独的草稿模型;团队可以将任何现有的基于扩散的 LLM 接入该框架。
  • 适用于边缘场景: 验证器工作负载的降低意味着更小、更低功耗的设备也能运行高质量的 AR 模型,并在需要时获得运行在服务器上的轻量级 dLLM 的偶尔帮助。

限制与未来工作

  • 基于启发式的难度估计: 当前的控制器依赖于简单的统计信息;更复杂的基于学习的预测器可能进一步提升草稿长度的决策效果。
  • 硬件依赖性: 最大的收益出现在能够高效支持并行扩散采样的 GPU 上;在 CPU 或较旧的加速器上,加速效果可能会减小。
  • 模型兼容性: 虽然作者已经在多个流行的 AR 和扩散模型上进行了测试,但该方法可能需要针对极大或专用的 LLM(例如多模态模型)进行适配。
  • 未来方向: 探索 dLLM 与控制器的联合训练,将该方法扩展到多模态扩散模型,以及与其他推测解码变体(例如 token‑wise 验证)的集成。

作者

  • Rui Pan
  • Zhuofu Chen
  • Ravi Netravali

论文信息

  • arXiv ID: 2512.20573v1
  • 分类: cs.LG, cs.AI, cs.DC
  • 出版日期: 2025年12月23日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »