【论文】InnerQ：硬件感知免调优KV缓存量化用于大语言模型

发布: 3天前 (2026年2月27日 GMT+8 00:50)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.23200v1

概览

大型语言模型（LLM）在生成文本时会保持一个 键‑值（KV）缓存，且缓存大小会随生成序列长度线性增长。这在推理过程中很快就会成为主要的内存消耗，尤其是在带宽宝贵的 GPU 上。InnerQ 提出了一种硬件感知、免调优量化 方法，能够压缩 KV 缓存，降低内存流量，并加速解码——且不会影响模型的答案质量。

关键贡献

内部维度分组量化 – 在内部（隐藏）维度上对缓存条目进行分组，使反量化与随后的向量‑矩阵乘对齐。
跨 GPU 计算单元的比例因子复用 – 减少反量化所需的内存读取次数，使推理速度比之前的 KV‑cache 量化器提升最高 22 %。
每组混合量化 – 根据局部统计自动选择对称或非对称量化，在激进压缩下仍保持数值保真度。
高精度窗口 – 将最近的 token 和 “attention‑sink” token 保持在更高精度，以防止异常值泄漏。
一次性每通道键归一化 – 在预填充阶段计算并折叠进查询，消除额外运行时开销。
在 LLaMA 模型上的实证验证 – 表现出与全精度缓存几乎相同的 few‑shot GSM8K 分数，并优于现有 KV‑cache 量化基线。

方法论

1. 缓存布局与分组

KV 缓存由两个矩阵组成：keys（K）和 values（V）。
与早期工作按行（外部维度）分组不同，InnerQ 按列（隐藏维度）进行分组。每个组包含一小块连续的隐藏单元（例如 64 维）。

2. 量化方案

对每个组计算基本统计量（最小值、最大值、均值、方差）。
当分布以零为中心时选择对称量化；否则选择 非对称 量化以捕捉偏斜。
使用 4 位整数对组进行编码（论文还探索了 8 位），并为整个组提供一个共享的 尺度因子。

3. 与注意力对齐的反量化

在注意力步骤中，查询向量与转置的键矩阵相乘。由于分组与内部维度匹配，反量化可以与 GEMV（向量‑矩阵乘）内核融合。
共享的尺度因子在每个计算单元中加载一次，并在组内所有元素中复用，从而大幅降低内存带宽需求。

4. 精度窗口与归一化

最近的 N 个 token（例如最近的 32 个）以及 “sink” token（接收大量注意力的 token）保持在 更高精度（FP16），以避免误差累积。
在初始提示（prefill）阶段对键矩阵进行一次每通道（每隐藏单元）缩放，并将其嵌入查询向量，使运行时无需额外的归一化过程。

5. 实现

集成到自定义 CUDA 内核中，在一次遍历中完成 组级反量化 + GEMV。
不需要额外的超参数调优；算法会自动决定量化模式。

结果与发现

模型 (LLaMA)	KV‑缓存大小缩减	解码延迟相对于 FP16	准确率 (GSM8K few‑shot)
7B	~4× (4‑bit)	‑22 % 相较于之前的 KV‑量化器, ‑88 % 相较于纯 FP16 GEMV	≈ 99 % 的全精度得分
13B	~4× (4‑bit)	同样趋势，最高 22 % 加速	无统计显著下降
30B	~4× (4‑bit)	一致的延迟提升	轻微 (<0.2 %) 降低，仍优于竞争量化器

内存流量 大幅下降，因为每个组共享单个尺度因子，减少了每个 token 的 32 位读取次数。
混合量化 防止了本会导致注意力得分爆炸的灾难性异常值。
高精度窗口 对保持准确率贡献最大，尤其是对长提示（>1 k token）。

实际意义

在通用 GPU 上的部署（例如 RTX 3090、A100）能够处理更长的上下文而不触及显存限制，从而实现更丰富的对话代理或文档级摘要。
成本节约：更小的 KV 缓存意味着在相同吞吐量下需要的 GPU 实例更少，直接降低云计算费用。
框架集成：该方法兼容现有的 transformer 库（例如 Hugging Face Transformers、vLLM），因为它仅修改缓存存储格式和注意力内核。无需对模型进行重新训练或微调。
边缘 AI 场景：在内存有限的设备上进行推理（例如 Jetson、移动 GPU）时，InnerQ 的 4 位缓存可以使 LLM 推理变得可行，而此前不可行。
未来硬件设计：内部维度分组与即将推出的在小块上操作的张量核指令高度契合，暗示硬件供应商可以提供进一步加速该模式的原语。

限制与未来工作

固定组大小：当前实现使用静态组大小（例如 64）。基于 token‑specific 统计的自适应分组可能会带来更好的压缩效果。
精度权衡：虽然 4‑bit 在评估的模型上表现良好，但超大模型（>70B）可能需要 4‑bit 与 8‑bit 组的混合使用，以保持在可接受的精度范围内。
硬件依赖：最大的加速在具有高内存带宽的 NVIDIA GPU 上观察到；在其他加速器（TPU、AMD GPU）上的性能仍需量化。
分布外提示：评估主要集中在 GSM8K 和标准基准上，对高度噪声或对抗性提示的鲁棒性尚未充分探索。
作者提出的未来方向包括：
1. 与即将推出的 GPU Tensor‑Core API 共同设计量化器。
2. 将该方法扩展到更激进地压缩 value 缓存。
3. 集成学习得到的每组缩放因子，以进一步降低量化误差。

作者

Sayed Mohammadreza Tayaranian Hosseini
Amir Ardakani
Warren J. Gross

论文信息

arXiv ID: 2602.23200v1
分类: cs.LG, cs.CL
发表时间: 2026年2月26日
PDF: Download PDF

相关文章

阅读更多 »

[Paper] LLM 新手提升在双用途、计算模拟生物学任务中的表现

大型语言模型（LLMs）在生物学基准测试中表现日益出色，但仍不清楚它们是否能提升新手用户——即使人类能够……

[Paper] SPARTA：可扩展且原则性的树结构多跳问答文本与表格基准

现实世界的表格-文本问答（QA）任务需要模型能够在长文本和源表格之间进行推理，跨越多跳并执行 co...

[Paper] 为什么 Diffusion Language Models 在真正的并行（非自回归）解码上表现不佳？

扩散语言模型（DLM）常被宣传能够实现并行 token 生成，但实际的快速 DLM 往往会收敛为左到右的自回归模型……

[Paper] 微调不忘记上下文学习：线性注意力模型的理论分析

基于Transformer的大型语言模型展现了上下文学习能力，使其能够通过少样本提示和示例来适应下游任务。在实践中……