[Paper] PackKV:通过 LLM 感知的有损压缩降低 KV 缓存内存占用

发布: (2025年12月31日 GMT+8 04:05)
6 min read
原文: arXiv

Source: arXiv - 2512.24449v1

请提供您希望翻译的具体文本内容,我将按照要求保留链接并进行简体中文翻译。

概述

大型语言模型(LLM)在生成长篇文本方面表现出色,但它们在推理过程中维护的 键值(KV)缓存 很快就会膨胀到数 GB,导致 GPU 显存紧张并限制上下文长度。论文 PackKV 提出了一种通用、面向 LLM 的有损压缩框架,能够大幅削减 KV 缓存占用,同时实际上 加速 底层的矩阵‑向量运算。

关键贡献

  • 针对 LLM 的有损压缩 用于 KV 缓存,利用 Transformer 激活的统计特性。
  • 协同设计的压缩/解压内核 与 GPU 矩阵‑向量乘法紧密集成,消除额外的内存流量。
  • 动态缓存支持:该方案在生成过程中随 KV 缓存逐 token 增长而工作。
  • 实证收益:相较于最先进的量化方法,内存压缩提升最高可达 ~150 %–180 %,在 A100 与 RTX Pro 6000 GPU 上吞吐量提升 ~75 %–172 %
  • 开源实现GitHub),便于快速采用。

方法论

  1. 数据驱动分析 – 作者首先对流行的大语言模型中的 KV 张量(键 K 和值 V)进行剖析,以识别冗余模式(例如,低方差维度、相关行)。
  2. 有损压缩设计 – 设计了两种互补方案:
    • 稀疏量化:对不重要的维度进行激进的低位量化,同时保留高方差成分。
    • 块状低秩近似:将 KV 矩阵划分为小块,并对每块进行低秩分解近似,显著降低存储需求。
  3. 系统集成 – 定制的 CUDA 核心将解压步骤直接融合到 GEMV(矩阵‑向量)计算中,使 GPU 从不生成完整的未压缩 KV 张量。这种“就地计算”方法避免了额外的内存拷贝和带宽消耗。
  4. 动态处理 – 随着新 token 的生成,框架会增量压缩新追加的 KV 条目,无需进行完整的重新压缩。

结果与发现

指标基准(无压缩)最先进的量化PackKV
K‑缓存内存减少0 %~70 %~153 %(即 >2× 减少)
V‑缓存内存减少0 %~80 %~180 %
吞吐量 (K)1×(cuBLAS GEMV)~1.2×1.76×
吞吐量 (V)~1.3×2.72×
准确率下降≤ 0.5 %(典型)≤ 0.5 %(匹配)

关键要点: PackKV 在保持现有量化方法极小的准确率损失的同时,提供 超过两倍的内存节省显著的加速,因为解压几乎是免费——其成本被 GEMV 核心吸收。

实际意义

  • 更长的上下文窗口 – 开发者可以让大型语言模型处理数千个 token 而不受 GPU 显存限制,从而实现更丰富的文档摘要、代码生成或聊天记录。
  • 更高的批处理吞吐量 – 由于 KV 缓存占用更小,更多并发请求可以在单个 GPU 上运行,提升服务延迟并降低硬件成本。
  • 成本效益的扩展 – 内存带宽的节省意味着现有 GPU 集群可以在不升级到更大显存的 GPU 的情况下处理更大的工作负载。
  • 即插即用 – PackKV 可作为流行 Transformer 库(如 Hugging Face Transformers)中 KV 缓存处理的直接替代品,几乎不需要修改代码。
  • 边缘 AI 可能性 – 降低的内存需求使得在低端 GPU 或甚至内存受限的设备加速器上运行 LLM 推理成为可能。

限制与未来工作

  • 有损特性 – 虽然在评估的基准上准确性影响可以忽略不计,但安全关键或高度敏感的应用仍可能对任何降级保持警惕。
  • 模型特定调优 – 压缩超参数(例如块大小、秩)是针对每个模型进行调优的;全自动调优的版本将有助于在快速扩展的模型库中更容易采用。
  • 硬件多样性 – 实验主要集中在 NVIDIA A100 和 RTX Pro 6000;在 AMD GPU、TPU 或即将推出的专注推理的 ASIC 上进行扩展和基准测试仍是未解决的问题。
  • 超越 KV – 作者建议探索对其他中间激活(例如注意力分数)进行类似压缩,以进一步缩减推理内存预算。

PackKV 证明了智能、模型感知的压缩可以将内存瓶颈转化为性能提升,为更具可扩展性、成本效益的 LLM 部署铺平道路。

作者

  • Bo Jiang
  • Taolue Yang
  • Youyuan Liu
  • Xubin He
  • Sheng Di
  • Sian Jin

论文信息

  • arXiv ID: 2512.24449v1
  • 分类: cs.DC, cs.AI
  • 发布日期: 2025年12月30日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »