[Paper] SPQ:一种用于大语言模型压缩的集成技术
发布: (2026年2月21日 GMT+8 02:44)
7 分钟阅读
原文: arXiv
Source: arXiv - 2602.18420v1
概述
本文介绍了 SPQ,一种三步组合方法,可在不牺牲准确性的前提下压缩大型语言模型(LLMs)。通过串联奇异值分解(SVD)、基于激活的剪枝以及 8‑bit 后训练量化,作者展示了 LLaMA‑2‑7B 可以缩小至最多 75 %,同时保持(甚至提升)困惑度和下游任务性能。
关键贡献
- 统一压缩管线,结合了三种互补技术(SVD + 剪枝 + 量化)。
- 层感知 SVD,将注意力投影矩阵分解为低秩组件,同时保留方差。
- 激活驱动的剪枝,根据运行时统计信息而非仅静态权重大小,去除冗余的 MLP 神经元。
- 内存高效的 8 位线性量化,在前两步之后应用,实现一次性后训练压缩。
- 实证验证 在 LLaMA‑2‑7B 上,涵盖语言建模(WikiText‑2、C4)和推理基准(TruthfulQA、GSM8K),性能优于单方法基线,并与 GPTQ、SparseGPT 等强竞争者相匹配。
- 加速最高达 1.9× 推理吞吐量相较于 GPTQ,并且峰值内存占用更低(6.86 GB 对 7.16 GB)。
方法论
- SVD 压缩 – 将每个注意力头的投影矩阵 (W) 分解为 (U\Sigma V^\top)。仅保留能够维持目标方差(例如 99 %)的前 k 个奇异值,矩阵随后被两个更小的因子取代,从而降低 FLOPs 和内存占用。
- 基于激活的剪枝 – 在代表性数据集上进行一次短暂的校准运行,记录每个 MLP 神经元的平均激活幅度。将激活低于某个百分位阈值的神经元剪除,并相应地重新连接周围的权重矩阵。此过程去除对模型输出没有贡献的“死”容量。
- 8‑位线性量化 – 在完成 SVD 与剪枝后,所有剩余的线性层使用标准的后训练量化器(例如每通道的最小‑最大缩放)量化为 8‑位整数。无需微调,保持流程快速且硬件友好。
这三个步骤按顺序应用,但设计上是相互正交的:SVD 处理注意力中的低秩冗余,剪枝消除不必要的 MLP 神经元,量化则统一压缩所有内容。作者还提供了一个简单的超参数搜索(秩保留率、剪枝百分位、量化方案),可针对任意目标压缩比实现自动化。
结果与发现
| Model / Dataset | Baseline Perplexity | SPQ (75 % compression) | GPTQ (similar memory) |
|---|---|---|---|
| LLaMA‑2‑7B (WikiText‑2) | 5.47 | 4.91 (improved) | 5.12 |
| LLaMA‑2‑7B (C4) | 7.31 | 7.05 | 7.08 |
| TruthfulQA (accuracy) | 71.2 % | 71.0 % | 70.8 % |
| GSM8K (score) | 71.5 | 71.3 | 71.1 |
- **内存降低:**最高可达 75 %(峰值 RAM 从约 27 GB 降至约 6.8 GB)。
- **吞吐量:**在单块 A100 GPU 上比 GPTQ 快 1.3–1.9 倍。
- **压缩权衡:**在较低的压缩比(例如 50 %)下,SPQ 能够匹配原始模型的困惑度,同时仍将内存使用减半。
实验结果证实,集成方法始终优于单独使用任一技术,凸显了这三种方法的互补性。
实际意义
- Edge & on‑premise deployment: 开发者现在可以在普通 GPU 或甚至高端 CPU 上运行 70 亿参数的 LLM,只需适度的 RAM,即可开启私有云或设备端推理场景。
- Cost‑effective serving: 更小的内存占用意味着可以使用更小的 VM 实例或在同一 GPU 上部署更多模型,从而降低云托管费用。
- Faster response times: 观察到的推理加速意味着聊天机器人或代码补全服务的延迟更低,提升用户体验。
- Simplified pipeline: 由于 SPQ 是一种后训练过程,不需要昂贵的微调,团队可以将其轻松集成到现有 CI/CD 工作流中,工程开销最小。
- Compatibility: 最终的 8‑bit 模型可以被标准推理运行时(例如 Hugging Face Transformers、vLLM)直接加载,无需自定义内核,便于采用。
限制与未来工作
- 校准数据依赖性: 剪枝决策依赖于一个小的校准集;如果该集合不具代表性,可能会删除一些有用的神经元。
- 固定秩选择: 当前的 SVD 步骤使用全局方差阈值;自适应的逐层秩选择可能会带来更好的权衡。
- 量化粒度: 仅探索了统一的 8‑bit 量化;混合精度或更新的整数格式(例如 4‑bit)可能进一步提升压缩率。
- 可扩展到 >30B 模型: 实验聚焦于 7B 模型;将 SPQ 推广到真正的大规模 LLM 可能需要额外的内存高效 SVD 算法或分布式剪枝。
作者建议探索自动化超参数搜索、在压缩后集成知识蒸馏微调,以及在多模态模型上测试 SPQ,作为有前景的后续工作。
作者
- Jiamin Yao
- Eren Gultepe
论文信息
- arXiv ID: 2602.18420v1
- 分类: cs.CL
- 发表时间: 2026年2月20日
- PDF: 下载 PDF