[Paper] Quasar：量化自投机加速通过内存高效验证实现快速推理

发布: 1天前 (2026年3月2日 GMT+8 11:02)

7 分钟阅读

原文: arXiv

Source: arXiv - 2603.01399v1

概览

本文提出了 Quasar，一个无需训练的框架，通过仅对推测解码的验证步骤应用低位量化来加速大语言模型（LLM）推理。通过将验证的内存流量减半，同时保持模型 logits 的质量，Quasar 在现有草稿技术的基础上额外提升约 28 % 的吞吐量——这对大规模部署 LLM 的人来说是一个重要的收益。

关键贡献

量化验证：引入一种新颖的低位（例如 4‑bit）量化方案，仅在验证阶段使用，草稿模型保持不变。
免训练流水线：无需额外微调或数据中心再训练；该方法可直接在任何预训练的大语言模型上使用。
内存带宽降低：证明量化将验证阶段的内存带宽需求减半，而验证是投机解码的主要瓶颈。
实证验证：在最先进的模型（OpenPangu、Qwen‑3）上显示，接受长度与全精度验证相当，同时实现 1.28× 的端到端加速。
与草稿阶段正交：该方法可叠加在任何现有的草稿策略（自投机、前瞻解码等）之上，无需修改。

方法论

Speculative decoding recap – 推理流水线被划分为一个快速的 draft 阶段（生成候选 token）和一个较慢的 verification 阶段（使用完整的目标模型检查这些候选 token）。
Targeted quantization – Quasar 仅对 verification 前向传播进行低位宽（通常为 4‑bit）量化，使用对称的、按张量的缩放因子。这保持了 logits 的相对排序，对接受决策至关重要。
Preserving logit fidelity – 作者比较了两种朴素的加速技巧：激进的结构剪枝（会破坏 logits 质量）与量化。实验表明，量化能够在几乎没有漂移的情况下保留原始 logits 分布。
Integration flow – draft 模型以 FP16/FP32 原样运行。draft 生成一批候选 token 后，verification 模型以量化模式对相同输入进行前向计算，得到 logits 并决定是否接受或拒绝每个 token。无需额外的训练或校准数据。
Implementation details – 量化内核基于现有的低位宽推理库（例如 bitsandbytes）构建，作者提供了一个简单的 API，可在运行时替换 verification 模型。

Source: …

结果与发现

模型	基线（全精度 SD）	Quasar（量化验证）	吞吐量 ↑	接受长度 Δ
OpenPangu‑13B	1.00×	1.28×	+28 %	< 0.5 % 下降
Qwen‑3‑7B	1.00×	1.27×	+27 %	< 0.4 % 下降

内存流量：量化将验证过程中的内存读写降低约 50 %，直接缓解了带宽瓶颈。
Logit 相似度：全精度与量化后 logits 之间的 KL 散度保持在 0.001 以下，证明接受决策几乎未改变。
兼容性：与最先进的草稿方法（例如带前瞻的自我推测）结合时，Quasar 能在已有提升的基础上再叠加其加速，验证了其正交性。

实际意义

降低硬件成本：通过减少内存带宽需求，Quasar 能在现有 GPU/TPU 上实现更高的推理吞吐量，无需更快的内存子系统。
更高的请求并发度：云服务提供商可以在每块 GPU 上同时处理更多 LLM 查询，从而提升利用率并降低每 token 的成本。
易于集成：由于无需重新训练，开发者只需一次配置更改即可将 Quasar 嵌入现有推理流水线。
边缘和设备端场景：降低的内存占用使得在带宽受限的设备上（如移动 GPU、推理加速器）也能实现投机解码。
面向未来：随着 LLM 规模持续增长，验证步骤将成为更大的瓶颈；Quasar 的量化验证提供了一条可扩展、模型无关的缓解路径。

限制与未来工作

量化粒度：当前实现使用统一的每张量缩放；更复杂的混合精度或每通道方案可能进一步提升加速。
硬件依赖：报告的提升基于具备高效低位内核的 GPU；在旧硬件上加速可能有限。
边缘案例准确性：虽然接受长度基本保持不变，但罕见的异常提示可能出现轻微下降；在安全关键的应用中需要回退到全精度验证。
更广泛的基准：实验仅聚焦于两个模型；将评估扩展到编码器‑解码器架构和多模态 LLM 将留待未来工作。

Quasar 展示了针对性的、无需训练的验证阶段量化可以突破限制推理解码性能的“内存墙”，为构建高吞吐量 LLM 服务的开发者提供了实用且可立即部署的提升。

作者

Guang Huang
Zeyi Wen

论文信息

arXiv ID: 2603.01399v1
分类: cs.DC, cs.LG
出版日期: 2026年3月2日
PDF: Download PDF

[Paper] Quasar：量化自投机加速通过内存高效验证实现快速推理

概览

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 部分因果结构学习用于在干预下的有效选择性共形推断

[Paper] 测试时强化学习的工具验证

[Paper] 符号等变循环推理模型

[论文] Sketch2Colab：草图条件的多人物动画通过可控流蒸馏