[论文] LLMs 可以压缩 LLMs:由代理进行的自适应剪枝
Source: arXiv - 2601.09694v1
概述
本文提出了一种新颖的“agent‑guided”剪枝技术,使一个大型语言模型(LLM)充当智能控制器,以压缩另一个 LLM。通过使用基于 LLM 的代理决定 where 和 how much 剪枝,作者实现了约 45 % 的高稀疏度,同时在 MMLU 和 factual QA 等基准测试上保持甚至提升下游性能。该方法无需任何再训练,对需要轻量化模型用于生产的开发者具有吸引力。
关键贡献
- Agent‑guided pruning: 引入一个基础模型,迭代选择每层稀疏比例,取代手工制定的启发式方法。
- Hybrid sensitivity metric: 将 Wanda 风格的权重‑激活分数与基于梯度的重要性相结合,并归一化为 z 分数以进行跨层比较。
- Self‑reflection & rollback: 剪枝代理在每次迭代后评估困惑度,如果下降超过阈值则回滚,并从过去的决策中学习。
- Model‑agnostic, training‑free: 可在任何仅解码器的 LLM 上使用(在 Qwen‑3 4B/8B 上演示),无需额外微调。
- Empirical gains: 在约 45% 稀疏度下,实现相对 MMLU 准确率提升 56%,在 FreebaseQA 上事实知识保留提升 19 倍,并且相较于结构化基线,困惑度下降降低 69%。
方法论
-
灵敏度分析 – 对每一层,方法计算两个分数:
- Wanda‑inspired weight‑activation magnitude(衡量权重对激活的贡献程度)。
- Gradient importance(如果移除该权重,损失会改变多少)。
这些分数会被转换为 z‑score,以便在不同层之间进行比较。
-
LLM 剪枝代理 – 一个独立的 LLM(即“代理”)接收每层的 z‑score 表以及描述当前剪枝状态的简短提示。随后它输出每层的稀疏率。代理配备了 self‑reflection loop:剪枝后,在验证集上测量目标模型的 perplexity;如果下降超过预设阈值,系统会回滚到上一个检查点,代理会修改其建议。
-
迭代剪枝 – 该过程重复 21–40 次迭代。每次迭代剪除少量权重,进行评估,并可能回滚。随着时间推移,代理“学习”哪些层能够承受激进的剪枝,哪些层需要保持密集。
-
无需再训练 – 最终的稀疏模型在剪枝循环结束后即可直接用于推理;不需要额外的微调或知识蒸馏。
结果与发现
| 指标 | 结构化基线(例如 Wanda) | 代理引导剪枝 |
|---|---|---|
| 稀疏度 | ~45 % | ~45 %(相同) |
| MMLU 准确率 | 基线 | +56 % 相对提升 |
| FreebaseQA 事实召回 | 几乎完全崩溃 | 提升 19 倍的保留率 |
| 困惑度下降 | 大幅下降 | 下降 69 % |
| 所需回滚次数 | 不适用(静态) | 在所有迭代中需要 2–4 次回滚 |
该代理始终能够识别出“知识关键”层(通常是早期的 Transformer 块),并予以保留,同时对对事实推理贡献较小的层进行积极剪枝。自我反思机制防止了语言模型能力的灾难性丧失,使困惑度保持在可接受的范围内。
实际意义
- 可部署的轻量级 LLM:公司可以在无需昂贵再训练流水线的情况下,将 4‑8 B 参数模型稀疏到约 45% 的稀疏度,从而降低 GPU 内存占用和边缘或低成本云推理的延迟。
- 保持事实能力:与许多结构化剪枝方法不同,此方法保留了模型回答知识密集查询的能力,这对聊天机器人、检索增强生成和决策支持工具至关重要。
- 即插即用的压缩服务:由于该方法与模型无关,SaaS 服务可以接受任何兼容的仅解码器 LLM,运行由代理引导的剪枝循环,并返回可直接部署的稀疏检查点。
- 降低工程开销:回滚/自我反思循环自动化超参数调优(每层剪枝比例),让开发者摆脱手动稀疏预算的繁琐。
- 基础模型即工具:该案例展示了强大 LLM 可以作为其他模型的优化器的具体用例,为元学习流水线打开了大门(例如,能够同时建议量化或蒸馏策略的代理)。
Limitations & Future Work
- Scope limited to decoder‑only LLMs: 论文仅评估了 Qwen‑3 4B/8B;对编码器‑解码器或多模态模型的适用性尚未测试。
- Agent size not quantified: 剪枝代理本身是一个 LLM;在压缩过程中运行该代理的开销未深入讨论。
- Heuristic thresholds: 困惑度回滚阈值是手动设定的;自适应或学习得到的阈值可能提升鲁棒性。
- Knowledge‑type bias: 虽然事实性问答有所提升,但对其他任务(如推理、代码生成)的影响仍需进一步研究。
- Future directions 包括将框架扩展到多目标剪枝(例如在延迟、内存和准确率之间平衡)、集成量化,以及探索自监督代理训练以降低对单独基础模型的依赖。
作者
- Sai Varun Kodathala
- Rakesh Vunnam
论文信息
- arXiv ID: 2601.09694v1
- 分类: cs.CL, cs.AI, cs.CV
- 发布时间: 2026年1月14日
- PDF: 下载 PDF