[Paper] PackKV:通过 LLM 感知的有损压缩降低 KV 缓存内存占用
发布: (2025年12月31日 GMT+8 04:05)
6 min read
原文: arXiv
Source: arXiv - 2512.24449v1
请提供您希望翻译的具体文本内容,我将按照要求保留链接并进行简体中文翻译。
概述
大型语言模型(LLM)在生成长篇文本方面表现出色,但它们在推理过程中维护的 键值(KV)缓存 很快就会膨胀到数 GB,导致 GPU 显存紧张并限制上下文长度。论文 PackKV 提出了一种通用、面向 LLM 的有损压缩框架,能够大幅削减 KV 缓存占用,同时实际上 加速 底层的矩阵‑向量运算。
关键贡献
- 针对 LLM 的有损压缩 用于 KV 缓存,利用 Transformer 激活的统计特性。
- 协同设计的压缩/解压内核 与 GPU 矩阵‑向量乘法紧密集成,消除额外的内存流量。
- 动态缓存支持:该方案在生成过程中随 KV 缓存逐 token 增长而工作。
- 实证收益:相较于最先进的量化方法,内存压缩提升最高可达 ~150 %–180 %,在 A100 与 RTX Pro 6000 GPU 上吞吐量提升 ~75 %–172 %。
- 开源实现(GitHub),便于快速采用。
方法论
- 数据驱动分析 – 作者首先对流行的大语言模型中的 KV 张量(键 K 和值 V)进行剖析,以识别冗余模式(例如,低方差维度、相关行)。
- 有损压缩设计 – 设计了两种互补方案:
- 稀疏量化:对不重要的维度进行激进的低位量化,同时保留高方差成分。
- 块状低秩近似:将 KV 矩阵划分为小块,并对每块进行低秩分解近似,显著降低存储需求。
- 系统集成 – 定制的 CUDA 核心将解压步骤直接融合到 GEMV(矩阵‑向量)计算中,使 GPU 从不生成完整的未压缩 KV 张量。这种“就地计算”方法避免了额外的内存拷贝和带宽消耗。
- 动态处理 – 随着新 token 的生成,框架会增量压缩新追加的 KV 条目,无需进行完整的重新压缩。
结果与发现
| 指标 | 基准(无压缩) | 最先进的量化 | PackKV |
|---|---|---|---|
| K‑缓存内存减少 | 0 % | ~70 % | ~153 %(即 >2× 减少) |
| V‑缓存内存减少 | 0 % | ~80 % | ~180 % |
| 吞吐量 (K) | 1×(cuBLAS GEMV) | ~1.2× | 1.76× |
| 吞吐量 (V) | 1× | ~1.3× | 2.72× |
| 准确率下降 | – | ≤ 0.5 %(典型) | ≤ 0.5 %(匹配) |
关键要点: PackKV 在保持现有量化方法极小的准确率损失的同时,提供 超过两倍的内存节省 和 显著的加速,因为解压几乎是免费——其成本被 GEMV 核心吸收。
实际意义
- 更长的上下文窗口 – 开发者可以让大型语言模型处理数千个 token 而不受 GPU 显存限制,从而实现更丰富的文档摘要、代码生成或聊天记录。
- 更高的批处理吞吐量 – 由于 KV 缓存占用更小,更多并发请求可以在单个 GPU 上运行,提升服务延迟并降低硬件成本。
- 成本效益的扩展 – 内存带宽的节省意味着现有 GPU 集群可以在不升级到更大显存的 GPU 的情况下处理更大的工作负载。
- 即插即用 – PackKV 可作为流行 Transformer 库(如 Hugging Face Transformers)中 KV 缓存处理的直接替代品,几乎不需要修改代码。
- 边缘 AI 可能性 – 降低的内存需求使得在低端 GPU 或甚至内存受限的设备加速器上运行 LLM 推理成为可能。
限制与未来工作
- 有损特性 – 虽然在评估的基准上准确性影响可以忽略不计,但安全关键或高度敏感的应用仍可能对任何降级保持警惕。
- 模型特定调优 – 压缩超参数(例如块大小、秩)是针对每个模型进行调优的;全自动调优的版本将有助于在快速扩展的模型库中更容易采用。
- 硬件多样性 – 实验主要集中在 NVIDIA A100 和 RTX Pro 6000;在 AMD GPU、TPU 或即将推出的专注推理的 ASIC 上进行扩展和基准测试仍是未解决的问题。
- 超越 KV – 作者建议探索对其他中间激活(例如注意力分数)进行类似压缩,以进一步缩减推理内存预算。
PackKV 证明了智能、模型感知的压缩可以将内存瓶颈转化为性能提升,为更具可扩展性、成本效益的 LLM 部署铺平道路。
作者
- Bo Jiang
- Taolue Yang
- Youyuan Liu
- Xubin He
- Sheng Di
- Sian Jin
论文信息
- arXiv ID: 2512.24449v1
- 分类: cs.DC, cs.AI
- 发布日期: 2025年12月30日
- PDF: Download PDF