[Paper] SPQ：一种用于大语言模型压缩的集成技术

发布: 3天前 (2026年2月21日 GMT+8 02:44)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.18420v1

概述

本文介绍了 SPQ，一种三步组合方法，可在不牺牲准确性的前提下压缩大型语言模型（LLMs）。通过串联奇异值分解（SVD）、基于激活的剪枝以及 8‑bit 后训练量化，作者展示了 LLaMA‑2‑7B 可以缩小至最多 75 %，同时保持（甚至提升）困惑度和下游任务性能。

统一压缩管线，结合了三种互补技术（SVD + 剪枝 + 量化）。
层感知 SVD，将注意力投影矩阵分解为低秩组件，同时保留方差。
激活驱动的剪枝，根据运行时统计信息而非仅静态权重大小，去除冗余的 MLP 神经元。
内存高效的 8 位线性量化，在前两步之后应用，实现一次性后训练压缩。
实证验证 在 LLaMA‑2‑7B 上，涵盖语言建模（WikiText‑2、C4）和推理基准（TruthfulQA、GSM8K），性能优于单方法基线，并与 GPTQ、SparseGPT 等强竞争者相匹配。
加速最高达 1.9× 推理吞吐量相较于 GPTQ，并且峰值内存占用更低（6.86 GB 对 7.16 GB）。

SVD 压缩 – 将每个注意力头的投影矩阵 (W) 分解为 (U\Sigma V^\top)。仅保留能够维持目标方差（例如 99 %）的前 k 个奇异值，矩阵随后被两个更小的因子取代，从而降低 FLOPs 和内存占用。
基于激活的剪枝 – 在代表性数据集上进行一次短暂的校准运行，记录每个 MLP 神经元的平均激活幅度。将激活低于某个百分位阈值的神经元剪除，并相应地重新连接周围的权重矩阵。此过程去除对模型输出没有贡献的“死”容量。
8‑位线性量化 – 在完成 SVD 与剪枝后，所有剩余的线性层使用标准的后训练量化器（例如每通道的最小‑最大缩放）量化为 8‑位整数。无需微调，保持流程快速且硬件友好。

这三个步骤按顺序应用，但设计上是相互正交的：SVD 处理注意力中的低秩冗余，剪枝消除不必要的 MLP 神经元，量化则统一压缩所有内容。作者还提供了一个简单的超参数搜索（秩保留率、剪枝百分位、量化方案），可针对任意目标压缩比实现自动化。

Model / Dataset	Baseline Perplexity	SPQ (75 % compression)	GPTQ (similar memory)
LLaMA‑2‑7B (WikiText‑2)	5.47	4.91 (improved)	5.12
LLaMA‑2‑7B (C4)	7.31	7.05	7.08
TruthfulQA (accuracy)	71.2 %	71.0 %	70.8 %
GSM8K (score)	71.5	71.3	71.1

实验结果证实，集成方法始终优于单独使用任一技术，凸显了这三种方法的互补性。

Edge & on‑premise deployment: 开发者现在可以在普通 GPU 或甚至高端 CPU 上运行 70 亿参数的 LLM，只需适度的 RAM，即可开启私有云或设备端推理场景。
Cost‑effective serving: 更小的内存占用意味着可以使用更小的 VM 实例或在同一 GPU 上部署更多模型，从而降低云托管费用。
Faster response times: 观察到的推理加速意味着聊天机器人或代码补全服务的延迟更低，提升用户体验。
Simplified pipeline: 由于 SPQ 是一种后训练过程，不需要昂贵的微调，团队可以将其轻松集成到现有 CI/CD 工作流中，工程开销最小。
Compatibility: 最终的 8‑bit 模型可以被标准推理运行时（例如 Hugging Face Transformers、vLLM）直接加载，无需自定义内核，便于采用。

作者建议探索自动化超参数搜索、在压缩后集成知识蒸馏微调，以及在多模态模型上测试 SPQ，作为有前景的后续工作。