[Paper] Quasar:量化自投机加速通过内存高效验证实现快速推理
发布: (2026年3月2日 GMT+8 11:02)
7 分钟阅读
原文: arXiv
Source: arXiv - 2603.01399v1
概览
本文提出了 Quasar,一个无需训练的框架,通过仅对推测解码的验证步骤应用低位量化来加速大语言模型(LLM)推理。通过将验证的内存流量减半,同时保持模型 logits 的质量,Quasar 在现有草稿技术的基础上额外提升约 28 % 的吞吐量——这对大规模部署 LLM 的人来说是一个重要的收益。
关键贡献
- 量化验证:引入一种新颖的低位(例如 4‑bit)量化方案,仅在验证阶段使用,草稿模型保持不变。
- 免训练流水线:无需额外微调或数据中心再训练;该方法可直接在任何预训练的大语言模型上使用。
- 内存带宽降低:证明量化将验证阶段的内存带宽需求减半,而验证是投机解码的主要瓶颈。
- 实证验证:在最先进的模型(OpenPangu、Qwen‑3)上显示,接受长度与全精度验证相当,同时实现 1.28× 的端到端加速。
- 与草稿阶段正交:该方法可叠加在任何现有的草稿策略(自投机、前瞻解码等)之上,无需修改。
方法论
- Speculative decoding recap – 推理流水线被划分为一个快速的 draft 阶段(生成候选 token)和一个较慢的 verification 阶段(使用完整的目标模型检查这些候选 token)。
- Targeted quantization – Quasar 仅对 verification 前向传播进行低位宽(通常为 4‑bit)量化,使用对称的、按张量的缩放因子。这保持了 logits 的相对排序,对接受决策至关重要。
- Preserving logit fidelity – 作者比较了两种朴素的加速技巧:激进的结构剪枝(会破坏 logits 质量)与量化。实验表明,量化能够在几乎没有漂移的情况下保留原始 logits 分布。
- Integration flow – draft 模型以 FP16/FP32 原样运行。draft 生成一批候选 token 后,verification 模型以量化模式对相同输入进行前向计算,得到 logits 并决定是否接受或拒绝每个 token。无需额外的训练或校准数据。
- Implementation details – 量化内核基于现有的低位宽推理库(例如 bitsandbytes)构建,作者提供了一个简单的 API,可在运行时替换 verification 模型。
Source: …
结果与发现
| 模型 | 基线(全精度 SD) | Quasar(量化验证) | 吞吐量 ↑ | 接受长度 Δ |
|---|---|---|---|---|
| OpenPangu‑13B | 1.00× | 1.28× | +28 % | < 0.5 % 下降 |
| Qwen‑3‑7B | 1.00× | 1.27× | +27 % | < 0.4 % 下降 |
- 内存流量:量化将验证过程中的内存读写降低约 50 %,直接缓解了带宽瓶颈。
- Logit 相似度:全精度与量化后 logits 之间的 KL 散度保持在 0.001 以下,证明接受决策几乎未改变。
- 兼容性:与最先进的草稿方法(例如带前瞻的自我推测)结合时,Quasar 能在已有提升的基础上再叠加其加速,验证了其正交性。
实际意义
- 降低硬件成本:通过减少内存带宽需求,Quasar 能在现有 GPU/TPU 上实现更高的推理吞吐量,无需更快的内存子系统。
- 更高的请求并发度:云服务提供商可以在每块 GPU 上同时处理更多 LLM 查询,从而提升利用率并降低每 token 的成本。
- 易于集成:由于无需重新训练,开发者只需一次配置更改即可将 Quasar 嵌入现有推理流水线。
- 边缘和设备端场景:降低的内存占用使得在带宽受限的设备上(如移动 GPU、推理加速器)也能实现投机解码。
- 面向未来:随着 LLM 规模持续增长,验证步骤将成为更大的瓶颈;Quasar 的量化验证提供了一条可扩展、模型无关的缓解路径。
限制与未来工作
- 量化粒度:当前实现使用统一的每张量缩放;更复杂的混合精度或每通道方案可能进一步提升加速。
- 硬件依赖:报告的提升基于具备高效低位内核的 GPU;在旧硬件上加速可能有限。
- 边缘案例准确性:虽然接受长度基本保持不变,但罕见的异常提示可能出现轻微下降;在安全关键的应用中需要回退到全精度验证。
- 更广泛的基准:实验仅聚焦于两个模型;将评估扩展到编码器‑解码器架构和多模态 LLM 将留待未来工作。
Quasar 展示了针对性的、无需训练的验证阶段量化可以突破限制推理解码性能的“内存墙”,为构建高吞吐量 LLM 服务的开发者提供了实用且可立即部署的提升。
作者
- Guang Huang
- Zeyi Wen
论文信息
- arXiv ID: 2603.01399v1
- 分类: cs.DC, cs.LG
- 出版日期: 2026年3月2日
- PDF: Download PDF