[论文] ZipServ:快速且内存高效的 LLM 推理,具备硬件感知的无损压缩

发布: (2026年3月18日 GMT+8 15:21)
7 分钟阅读
原文: arXiv

Source: arXiv - 2603.17435v1

概览

本文介绍了 ZipServ,一种无损压缩系统,使在 GPU 上部署大型语言模型(LLMs)既更小巧又更快速。通过重新设计压缩格式以及使用该格式的 GPU 核心,作者实现了最高 30 % 的模型体积缩减 以及 可观的推理加速——这是大多数先前的“位精确”压缩器无法做到的。

关键贡献

  • Tensor‑Core‑Aware Triple Bitmap Encoding (TCA‑TBE) – 一种固定长度、基于位图的表示,可在常数时间内解码,并能无缝映射到 NVIDIA Tensor Cores。
  • ZipGEMM kernel – 一个融合的“解压‑乘法”内核,可将压缩权重直接流入 Tensor‑Core 寄存器,消除中间缓冲区。
  • Hardware‑aware co‑design – 压缩格式与计算内核协同设计,保持 SIMT 并行性并避免额外的内存流量。
  • Empirical gains – 模型大小最高可降低 30 %,相较于 cuBLAS,内核层面加速 2.21×,在流行的 vLLM 服务栈上端到端推理加速 1.22×
  • First lossless system – 首个在 GPU 上同时实现存储节省 推理加速的无损系统,针对大语言模型(LLM)。

方法论

  1. 编码设计 – 传统的熵编码器(例如 Huffman、算术编码)会产生可变长度的比特流,这会破坏 GPU warp 的同步执行模型。ZipServ 用 三位图 布局取而代之:三个并行位图分别对每个权重的符号位、指数位和尾数位进行固定大小块的编码。由于每个位图都是规则的、字对齐的数组,所有线程都可以独立读取各自的切片,从而保持 SIMT 执行。

  2. Tensor‑Core 集成 – 这三个位图直接流入 Tensor Core 矩阵乘法单元。作者实现了自定义的 ZipGEMM 内核,其工作流程为:

    • 从全局内存加载压缩的位图块。
    • 在寄存器中即时解压(无需额外的全局内存写入)。
    • 将得到的 FP16/FP32 数值送入 Tensor Core 的 GEMM 运算。
  3. 系统级融合 – 在典型的服务流水线中,模型权重首先被解压到稠密缓冲区,然后另一个 GEMM 内核读取该缓冲区。ZipServ 将这两个步骤合并,减半内存往返次数并降低缓存压力。

  4. 评估 – 作者在多款最先进的 LLM(如 LLaMA‑7B、LLaMA‑13B)上使用 NVIDIA A100 GPU 对 ZipServ 进行基准测试,并与以下方案进行比较:

    • 未压缩基线(cuBLAS)。
    • 现有的无损压缩器(例如 DeepCompress)。
    • 用于端到端延迟的流行服务框架(vLLM)。

结果与发现

模型压缩率相对于 cuBLAS 的内核加速相对于 vLLM 的端到端加速
LLaMA‑7B小 28 %1.9×1.18×
LLaMA‑13B小 30 %2.21×1.22×
GPT‑NeoX‑20B小 26 %1.7×1.15×
  • 内存占用 降低最多 30 %,使得更大的模型能够装入单个 GPU,或释放空间用于批量级并行。
  • 内核级吞吐量 提升,因为融合的 ZipGEMM 消除了额外的内存拷贝,并充分利用 Tensor Core 的计算密度。
  • 整体延迟 在集成到完整服务堆栈时获得了适度但持续的提升(≈ 1.2×),证明压缩开销并未抵消计算收益。

实际影响

  • 成本效益的扩展 – 云服务提供商可以在相同的 GPU 集群上托管更大的大语言模型,降低硬件支出或实现更高的请求并发。
  • 面向边缘的推理 – 内存需求的降低为在配备 NVIDIA Jetson 或类似 GPU 的高端边缘设备上部署 7‑13 B 参数模型打开了可能。
  • 简化流水线 – 开发者可以用一次 ZipGEMM 调用取代“加载‑解压‑计算”序列,降低代码复杂度和潜在错误。
  • 兼容性 – 由于 ZipServ 在 GEMM 层面工作,可通过自定义 CUDA kernel 包装器直接嵌入现有框架(如 PyTorch、TensorFlow),无需重新训练或微调模型。
  • 面向未来 – 随着新一代 GPU 提供更大的 Tensor‑Core 矩阵(例如 Hopper 的 FP8 支持),基于位图的编码可以扩展以匹配原生数据格式,保持相同的加速效果。

限制与未来工作

  • 硬件特定性 – 当前设计与 NVIDIA Tensor Cores 紧密耦合;移植到 AMD 或基于 CPU 的加速器需要采用不同的编码或内核策略。
  • 压缩上限 – 由于是无损的,ZipServ 无法实现量化或剪枝那样显著的尺寸缩减;观察到的 30 % 节省是实际的上限。
  • 内核复杂性 – 融合内核比标准 GEMM 更为复杂,可能增加维护负担并限制在高级库中的即时采用。
  • 未来方向 作者提出的包括:将 TCA‑TBE 扩展以支持混合精度(例如 FP8/FP16)流水线,探索针对不同层的自适应位图粒度,并将该方法集成到多 GPU 模型并行框架中。

作者

  • Ruibo Fan
  • Xiangrui Yu
  • Xinglin Pan
  • Zeyu Li
  • Weile Luo
  • Qiang Wang
  • Wei Wang
  • Xiaowen Chu

论文信息

  • arXiv ID: 2603.17435v1
  • 分类: cs.DC, cs.AR, cs.LG, cs.PF
  • 发布日期: 2026年3月18日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »