【论文】InnerQ:硬件感知免调优KV缓存量化用于大语言模型
发布: (2026年2月27日 GMT+8 00:50)
8 分钟阅读
原文: arXiv
Source: arXiv - 2602.23200v1
概览
大型语言模型(LLM)在生成文本时会保持一个 键‑值(KV)缓存,且缓存大小会随生成序列长度线性增长。这在推理过程中很快就会成为主要的内存消耗,尤其是在带宽宝贵的 GPU 上。InnerQ 提出了一种硬件感知、免调优量化 方法,能够压缩 KV 缓存,降低内存流量,并加速解码——且不会影响模型的答案质量。
关键贡献
- 内部维度分组量化 – 在内部(隐藏)维度上对缓存条目进行分组,使反量化与随后的向量‑矩阵乘对齐。
- 跨 GPU 计算单元的比例因子复用 – 减少反量化所需的内存读取次数,使推理速度比之前的 KV‑cache 量化器提升最高 22 %。
- 每组混合量化 – 根据局部统计自动选择对称或非对称量化,在激进压缩下仍保持数值保真度。
- 高精度窗口 – 将最近的 token 和 “attention‑sink” token 保持在更高精度,以防止异常值泄漏。
- 一次性每通道键归一化 – 在预填充阶段计算并折叠进查询,消除额外运行时开销。
- 在 LLaMA 模型上的实证验证 – 表现出与全精度缓存几乎相同的 few‑shot GSM8K 分数,并优于现有 KV‑cache 量化基线。
方法论
1. 缓存布局与分组
- KV 缓存由两个矩阵组成:keys(K)和 values(V)。
- 与早期工作按行(外部维度)分组不同,InnerQ 按 列(隐藏维度)进行分组。每个组包含一小块连续的隐藏单元(例如 64 维)。
2. 量化方案
- 对每个组计算基本统计量(最小值、最大值、均值、方差)。
- 当分布以零为中心时选择 对称 量化;否则选择 非对称 量化以捕捉偏斜。
- 使用 4 位整数对组进行编码(论文还探索了 8 位),并为整个组提供一个共享的 尺度因子。
3. 与注意力对齐的反量化
- 在注意力步骤中,查询向量与转置的键矩阵相乘。由于分组与内部维度匹配,反量化可以与 GEMV(向量‑矩阵乘)内核融合。
- 共享的尺度因子在每个计算单元中加载一次,并在组内所有元素中复用,从而大幅降低内存带宽需求。
4. 精度窗口与归一化
- 最近的 N 个 token(例如最近的 32 个)以及 “sink” token(接收大量注意力的 token)保持在 更高精度(FP16),以避免误差累积。
- 在初始提示(prefill)阶段对键矩阵进行一次每通道(每隐藏单元)缩放,并将其嵌入查询向量,使运行时无需额外的归一化过程。
5. 实现
- 集成到自定义 CUDA 内核中,在一次遍历中完成 组级反量化 + GEMV。
- 不需要额外的超参数调优;算法会自动决定量化模式。
结果与发现
| 模型 (LLaMA) | KV‑缓存大小缩减 | 解码延迟相对于 FP16 | 准确率 (GSM8K few‑shot) |
|---|---|---|---|
| 7B | ~4× (4‑bit) | ‑22 % 相较于之前的 KV‑量化器, ‑88 % 相较于纯 FP16 GEMV | ≈ 99 % 的全精度得分 |
| 13B | ~4× (4‑bit) | 同样趋势,最高 22 % 加速 | 无统计显著下降 |
| 30B | ~4× (4‑bit) | 一致的延迟提升 | 轻微 (<0.2 %) 降低,仍优于竞争量化器 |
- 内存流量 大幅下降,因为每个组共享单个尺度因子,减少了每个 token 的 32 位读取次数。
- 混合量化 防止了本会导致注意力得分爆炸的灾难性异常值。
- 高精度窗口 对保持准确率贡献最大,尤其是对长提示(>1 k token)。
实际意义
- 在通用 GPU 上的部署(例如 RTX 3090、A100)能够处理更长的上下文而不触及显存限制,从而实现更丰富的对话代理或文档级摘要。
- 成本节约:更小的 KV 缓存意味着在相同吞吐量下需要的 GPU 实例更少,直接降低云计算费用。
- 框架集成:该方法兼容现有的 transformer 库(例如 Hugging Face Transformers、vLLM),因为它仅修改缓存存储格式和注意力内核。无需对模型进行重新训练或微调。
- 边缘 AI 场景:在内存有限的设备上进行推理(例如 Jetson、移动 GPU)时,InnerQ 的 4 位缓存可以使 LLM 推理变得可行,而此前不可行。
- 未来硬件设计:内部维度分组与即将推出的在小块上操作的张量核指令高度契合,暗示硬件供应商可以提供进一步加速该模式的原语。
限制与未来工作
- 固定组大小:当前实现使用静态组大小(例如 64)。基于 token‑specific 统计的自适应分组可能会带来更好的压缩效果。
- 精度权衡:虽然 4‑bit 在评估的模型上表现良好,但超大模型(>70B)可能需要 4‑bit 与 8‑bit 组的混合使用,以保持在可接受的精度范围内。
- 硬件依赖:最大的加速在具有高内存带宽的 NVIDIA GPU 上观察到;在其他加速器(TPU、AMD GPU)上的性能仍需量化。
- 分布外提示:评估主要集中在 GSM8K 和标准基准上,对高度噪声或对抗性提示的鲁棒性尚未充分探索。
- 作者提出的未来方向包括:
- 与即将推出的 GPU Tensor‑Core API 共同设计量化器。
- 将该方法扩展到更激进地压缩 value 缓存。
- 集成学习得到的每组缩放因子,以进一步降低量化误差。
作者
- Sayed Mohammadreza Tayaranian Hosseini
- Amir Ardakani
- Warren J. Gross
论文信息
- arXiv ID: 2602.23200v1
- 分类: cs.LG, cs.CL
- 发表时间: 2026年2月26日
- PDF: Download PDF