【论文】InnerQ:硬件感知免调优KV缓存量化用于大语言模型

发布: (2026年2月27日 GMT+8 00:50)
8 分钟阅读
原文: arXiv

Source: arXiv - 2602.23200v1

概览

大型语言模型(LLM)在生成文本时会保持一个 键‑值(KV)缓存,且缓存大小会随生成序列长度线性增长。这在推理过程中很快就会成为主要的内存消耗,尤其是在带宽宝贵的 GPU 上。InnerQ 提出了一种硬件感知、免调优量化 方法,能够压缩 KV 缓存,降低内存流量,并加速解码——且不会影响模型的答案质量。

关键贡献

  • 内部维度分组量化 – 在内部(隐藏)维度上对缓存条目进行分组,使反量化与随后的向量‑矩阵乘对齐。
  • 跨 GPU 计算单元的比例因子复用 – 减少反量化所需的内存读取次数,使推理速度比之前的 KV‑cache 量化器提升最高 22 %
  • 每组混合量化 – 根据局部统计自动选择对称或非对称量化,在激进压缩下仍保持数值保真度。
  • 高精度窗口 – 将最近的 token 和 “attention‑sink” token 保持在更高精度,以防止异常值泄漏。
  • 一次性每通道键归一化 – 在预填充阶段计算并折叠进查询,消除额外运行时开销。
  • 在 LLaMA 模型上的实证验证 – 表现出与全精度缓存几乎相同的 few‑shot GSM8K 分数,并优于现有 KV‑cache 量化基线。

方法论

1. 缓存布局与分组

  • KV 缓存由两个矩阵组成:keys(K)和 values(V)。
  • 与早期工作按行(外部维度)分组不同,InnerQ 按 (隐藏维度)进行分组。每个组包含一小块连续的隐藏单元(例如 64 维)。

2. 量化方案

  • 对每个组计算基本统计量(最小值、最大值、均值、方差)。
  • 当分布以零为中心时选择 对称 量化;否则选择 非对称 量化以捕捉偏斜。
  • 使用 4 位整数对组进行编码(论文还探索了 8 位),并为整个组提供一个共享的 尺度因子

3. 与注意力对齐的反量化

  • 在注意力步骤中,查询向量与转置的键矩阵相乘。由于分组与内部维度匹配,反量化可以与 GEMV(向量‑矩阵乘)内核融合。
  • 共享的尺度因子在每个计算单元中加载一次,并在组内所有元素中复用,从而大幅降低内存带宽需求。

4. 精度窗口与归一化

  • 最近的 N 个 token(例如最近的 32 个)以及 “sink” token(接收大量注意力的 token)保持在 更高精度(FP16),以避免误差累积。
  • 在初始提示(prefill)阶段对键矩阵进行一次每通道(每隐藏单元)缩放,并将其嵌入查询向量,使运行时无需额外的归一化过程。

5. 实现

  • 集成到自定义 CUDA 内核中,在一次遍历中完成 组级反量化 + GEMV
  • 不需要额外的超参数调优;算法会自动决定量化模式。

结果与发现

模型 (LLaMA)KV‑缓存大小缩减解码延迟相对于 FP16准确率 (GSM8K few‑shot)
7B~4× (4‑bit)‑22 % 相较于之前的 KV‑量化器, ‑88 % 相较于纯 FP16 GEMV≈ 99 % 的全精度得分
13B~4× (4‑bit)同样趋势,最高 22 % 加速无统计显著下降
30B~4× (4‑bit)一致的延迟提升轻微 (<0.2 %) 降低,仍优于竞争量化器
  • 内存流量 大幅下降,因为每个组共享单个尺度因子,减少了每个 token 的 32 位读取次数。
  • 混合量化 防止了本会导致注意力得分爆炸的灾难性异常值。
  • 高精度窗口 对保持准确率贡献最大,尤其是对长提示(>1 k token)。

实际意义

  • 在通用 GPU 上的部署(例如 RTX 3090、A100)能够处理更长的上下文而不触及显存限制,从而实现更丰富的对话代理或文档级摘要。
  • 成本节约:更小的 KV 缓存意味着在相同吞吐量下需要的 GPU 实例更少,直接降低云计算费用。
  • 框架集成:该方法兼容现有的 transformer 库(例如 Hugging Face Transformers、vLLM),因为它仅修改缓存存储格式和注意力内核。无需对模型进行重新训练或微调。
  • 边缘 AI 场景:在内存有限的设备上进行推理(例如 Jetson、移动 GPU)时,InnerQ 的 4 位缓存可以使 LLM 推理变得可行,而此前不可行。
  • 未来硬件设计:内部维度分组与即将推出的在小块上操作的张量核指令高度契合,暗示硬件供应商可以提供进一步加速该模式的原语。

限制与未来工作

  • 固定组大小:当前实现使用静态组大小(例如 64)。基于 token‑specific 统计的自适应分组可能会带来更好的压缩效果。
  • 精度权衡:虽然 4‑bit 在评估的模型上表现良好,但超大模型(>70B)可能需要 4‑bit 与 8‑bit 组的混合使用,以保持在可接受的精度范围内。
  • 硬件依赖:最大的加速在具有高内存带宽的 NVIDIA GPU 上观察到;在其他加速器(TPU、AMD GPU)上的性能仍需量化。
  • 分布外提示:评估主要集中在 GSM8K 和标准基准上,对高度噪声或对抗性提示的鲁棒性尚未充分探索。
  • 作者提出的未来方向包括:
    1. 与即将推出的 GPU Tensor‑Core API 共同设计量化器。
    2. 将该方法扩展到更激进地压缩 value 缓存。
    3. 集成学习得到的每组缩放因子,以进一步降低量化误差。

作者

  • Sayed Mohammadreza Tayaranian Hosseini
  • Amir Ardakani
  • Warren J. Gross

论文信息

  • arXiv ID: 2602.23200v1
  • 分类: cs.LG, cs.CL
  • 发表时间: 2026年2月26日
  • PDF: Download PDF
0 浏览
Back to Blog

相关文章

阅读更多 »