[Paper] Quasar:量化自投机加速通过内存高效验证实现快速推理

发布: (2026年3月2日 GMT+8 11:02)
7 分钟阅读
原文: arXiv

Source: arXiv - 2603.01399v1

概览

本文提出了 Quasar,一个无需训练的框架,通过仅对推测解码的验证步骤应用低位量化来加速大语言模型(LLM)推理。通过将验证的内存流量减半,同时保持模型 logits 的质量,Quasar 在现有草稿技术的基础上额外提升约 28 % 的吞吐量——这对大规模部署 LLM 的人来说是一个重要的收益。

关键贡献

  • 量化验证:引入一种新颖的低位(例如 4‑bit)量化方案,仅在验证阶段使用,草稿模型保持不变。
  • 免训练流水线:无需额外微调或数据中心再训练;该方法可直接在任何预训练的大语言模型上使用。
  • 内存带宽降低:证明量化将验证阶段的内存带宽需求减半,而验证是投机解码的主要瓶颈。
  • 实证验证:在最先进的模型(OpenPangu、Qwen‑3)上显示,接受长度与全精度验证相当,同时实现 1.28× 的端到端加速。
  • 与草稿阶段正交:该方法可叠加在任何现有的草稿策略(自投机、前瞻解码等)之上,无需修改。

方法论

  1. Speculative decoding recap – 推理流水线被划分为一个快速的 draft 阶段(生成候选 token)和一个较慢的 verification 阶段(使用完整的目标模型检查这些候选 token)。
  2. Targeted quantization – Quasar 仅对 verification 前向传播进行低位宽(通常为 4‑bit)量化,使用对称的、按张量的缩放因子。这保持了 logits 的相对排序,对接受决策至关重要。
  3. Preserving logit fidelity – 作者比较了两种朴素的加速技巧:激进的结构剪枝(会破坏 logits 质量)与量化。实验表明,量化能够在几乎没有漂移的情况下保留原始 logits 分布。
  4. Integration flow – draft 模型以 FP16/FP32 原样运行。draft 生成一批候选 token 后,verification 模型以量化模式对相同输入进行前向计算,得到 logits 并决定是否接受或拒绝每个 token。无需额外的训练或校准数据。
  5. Implementation details – 量化内核基于现有的低位宽推理库(例如 bitsandbytes)构建,作者提供了一个简单的 API,可在运行时替换 verification 模型。

Source:

结果与发现

模型基线(全精度 SD)Quasar(量化验证)吞吐量 ↑接受长度 Δ
OpenPangu‑13B1.00×1.28×+28 %< 0.5 % 下降
Qwen‑3‑7B1.00×1.27×+27 %< 0.4 % 下降
  • 内存流量:量化将验证过程中的内存读写降低约 50 %,直接缓解了带宽瓶颈。
  • Logit 相似度:全精度与量化后 logits 之间的 KL 散度保持在 0.001 以下,证明接受决策几乎未改变。
  • 兼容性:与最先进的草稿方法(例如带前瞻的自我推测)结合时,Quasar 能在已有提升的基础上再叠加其加速,验证了其正交性。

实际意义

  • 降低硬件成本:通过减少内存带宽需求,Quasar 能在现有 GPU/TPU 上实现更高的推理吞吐量,无需更快的内存子系统。
  • 更高的请求并发度:云服务提供商可以在每块 GPU 上同时处理更多 LLM 查询,从而提升利用率并降低每 token 的成本。
  • 易于集成:由于无需重新训练,开发者只需一次配置更改即可将 Quasar 嵌入现有推理流水线。
  • 边缘和设备端场景:降低的内存占用使得在带宽受限的设备上(如移动 GPU、推理加速器)也能实现投机解码。
  • 面向未来:随着 LLM 规模持续增长,验证步骤将成为更大的瓶颈;Quasar 的量化验证提供了一条可扩展、模型无关的缓解路径。

限制与未来工作

  • 量化粒度:当前实现使用统一的每张量缩放;更复杂的混合精度或每通道方案可能进一步提升加速。
  • 硬件依赖:报告的提升基于具备高效低位内核的 GPU;在旧硬件上加速可能有限。
  • 边缘案例准确性:虽然接受长度基本保持不变,但罕见的异常提示可能出现轻微下降;在安全关键的应用中需要回退到全精度验证。
  • 更广泛的基准:实验仅聚焦于两个模型;将评估扩展到编码器‑解码器架构和多模态 LLM 将留待未来工作。

Quasar 展示了针对性的、无需训练的验证阶段量化可以突破限制推理解码性能的“内存墙”,为构建高吞吐量 LLM 服务的开发者提供了实用且可立即部署的提升。

作者

  • Guang Huang
  • Zeyi Wen

论文信息

  • arXiv ID: 2603.01399v1
  • 分类: cs.DC, cs.LG
  • 出版日期: 2026年3月2日
  • PDF: Download PDF
0 浏览
Back to Blog

相关文章

阅读更多 »