[Paper] PackKV：通过 LLM 感知的有损压缩降低 KV 缓存内存占用

发布: 1个月前 (2025年12月31日 GMT+8 04:05)

6 分钟阅读

原文: arXiv

Source: arXiv - 2512.24449v1

请提供您希望翻译的具体文本内容，我将按照要求保留链接并进行简体中文翻译。

概述

大型语言模型（LLM）在生成长篇文本方面表现出色，但它们在推理过程中维护的 键值（KV）缓存 很快就会膨胀到数 GB，导致 GPU 显存紧张并限制上下文长度。论文 PackKV 提出了一种通用、面向 LLM 的有损压缩框架，能够大幅削减 KV 缓存占用，同时实际上加速底层的矩阵‑向量运算。

关键贡献

针对 LLM 的有损压缩 用于 KV 缓存，利用 Transformer 激活的统计特性。
协同设计的压缩/解压内核 与 GPU 矩阵‑向量乘法紧密集成，消除额外的内存流量。
动态缓存支持：该方案在生成过程中随 KV 缓存逐 token 增长而工作。
实证收益：相较于最先进的量化方法，内存压缩提升最高可达 ~150 %–180 %，在 A100 与 RTX Pro 6000 GPU 上吞吐量提升 ~75 %–172 %。
开源实现（GitHub），便于快速采用。

方法论

数据驱动分析 – 作者首先对流行的大语言模型中的 KV 张量（键 K 和值 V）进行剖析，以识别冗余模式（例如，低方差维度、相关行）。
有损压缩设计 – 设计了两种互补方案：
- 稀疏量化：对不重要的维度进行激进的低位量化，同时保留高方差成分。
- 块状低秩近似：将 KV 矩阵划分为小块，并对每块进行低秩分解近似，显著降低存储需求。
系统集成 – 定制的 CUDA 核心将解压步骤直接融合到 GEMV（矩阵‑向量）计算中，使 GPU 从不生成完整的未压缩 KV 张量。这种“就地计算”方法避免了额外的内存拷贝和带宽消耗。
动态处理 – 随着新 token 的生成，框架会增量压缩新追加的 KV 条目，无需进行完整的重新压缩。

结果与发现

指标	基准（无压缩）	最先进的量化	PackKV
K‑缓存内存减少	0 %	~70 %	~153 %（即 >2× 减少）
V‑缓存内存减少	0 %	~80 %	~180 %
吞吐量 (K)	1×（cuBLAS GEMV）	~1.2×	1.76×
吞吐量 (V)	1×	~1.3×	2.72×
准确率下降	–	≤ 0.5 %（典型）	≤ 0.5 %（匹配）

关键要点： PackKV 在保持现有量化方法极小的准确率损失的同时，提供 超过两倍的内存节省 和 显著的加速，因为解压几乎是免费——其成本被 GEMV 核心吸收。

实际意义

更长的上下文窗口 – 开发者可以让大型语言模型处理数千个 token 而不受 GPU 显存限制，从而实现更丰富的文档摘要、代码生成或聊天记录。
更高的批处理吞吐量 – 由于 KV 缓存占用更小，更多并发请求可以在单个 GPU 上运行，提升服务延迟并降低硬件成本。
成本效益的扩展 – 内存带宽的节省意味着现有 GPU 集群可以在不升级到更大显存的 GPU 的情况下处理更大的工作负载。
即插即用 – PackKV 可作为流行 Transformer 库（如 Hugging Face Transformers）中 KV 缓存处理的直接替代品，几乎不需要修改代码。
边缘 AI 可能性 – 降低的内存需求使得在低端 GPU 或甚至内存受限的设备加速器上运行 LLM 推理成为可能。

限制与未来工作

有损特性 – 虽然在评估的基准上准确性影响可以忽略不计，但安全关键或高度敏感的应用仍可能对任何降级保持警惕。
模型特定调优 – 压缩超参数（例如块大小、秩）是针对每个模型进行调优的；全自动调优的版本将有助于在快速扩展的模型库中更容易采用。
硬件多样性 – 实验主要集中在 NVIDIA A100 和 RTX Pro 6000；在 AMD GPU、TPU 或即将推出的专注推理的 ASIC 上进行扩展和基准测试仍是未解决的问题。
超越 KV – 作者建议探索对其他中间激活（例如注意力分数）进行类似压缩，以进一步缩减推理内存预算。

PackKV 证明了智能、模型感知的压缩可以将内存瓶颈转化为性能提升，为更具可扩展性、成本效益的 LLM 部署铺平道路。

作者

Bo Jiang
Taolue Yang
Youyuan Liu
Xubin He
Sheng Di
Sian Jin

论文信息

arXiv ID: 2512.24449v1
分类: cs.DC, cs.AI
发布日期: 2025年12月30日
PDF: Download PDF

[Paper] PackKV：通过 LLM 感知的有损压缩降低 KV 缓存内存占用

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 两种深度学习方法用于Cine心脏MRI左心室的自动分割

[Paper] 理性几何：有效数学推理的谱特征

[Paper] FedHypeVAE：联邦学习与超网络生成的条件VAE用于差分隐私嵌入共享

[Paper] 分类重新参数化与去噪扩散模型