[论文] LLMs 可以压缩 LLMs：由代理进行的自适应剪枝

发布: 3周前 (2026年1月15日 GMT+8 02:45)

7 分钟阅读

原文: arXiv

Source: arXiv - 2601.09694v1

概述

本文提出了一种新颖的“agent‑guided”剪枝技术，使一个大型语言模型（LLM）充当智能控制器，以压缩另一个 LLM。通过使用基于 LLM 的代理决定 where 和 how much 剪枝，作者实现了约 45 % 的高稀疏度，同时在 MMLU 和 factual QA 等基准测试上保持甚至提升下游性能。该方法无需任何再训练，对需要轻量化模型用于生产的开发者具有吸引力。

关键贡献

Agent‑guided pruning: 引入一个基础模型，迭代选择每层稀疏比例，取代手工制定的启发式方法。
Hybrid sensitivity metric: 将 Wanda 风格的权重‑激活分数与基于梯度的重要性相结合，并归一化为 z 分数以进行跨层比较。
Self‑reflection & rollback: 剪枝代理在每次迭代后评估困惑度，如果下降超过阈值则回滚，并从过去的决策中学习。
Model‑agnostic, training‑free: 可在任何仅解码器的 LLM 上使用（在 Qwen‑3 4B/8B 上演示），无需额外微调。
Empirical gains: 在约 45% 稀疏度下，实现相对 MMLU 准确率提升 56%，在 FreebaseQA 上事实知识保留提升 19 倍，并且相较于结构化基线，困惑度下降降低 69%。

方法论

灵敏度分析 – 对每一层，方法计算两个分数：
- Wanda‑inspired weight‑activation magnitude（衡量权重对激活的贡献程度）。
- Gradient importance（如果移除该权重，损失会改变多少）。
  这些分数会被转换为 z‑score，以便在不同层之间进行比较。
LLM 剪枝代理 – 一个独立的 LLM（即“代理”）接收每层的 z‑score 表以及描述当前剪枝状态的简短提示。随后它输出每层的稀疏率。代理配备了 self‑reflection loop：剪枝后，在验证集上测量目标模型的 perplexity；如果下降超过预设阈值，系统会回滚到上一个检查点，代理会修改其建议。
迭代剪枝 – 该过程重复 21–40 次迭代。每次迭代剪除少量权重，进行评估，并可能回滚。随着时间推移，代理“学习”哪些层能够承受激进的剪枝，哪些层需要保持密集。
无需再训练 – 最终的稀疏模型在剪枝循环结束后即可直接用于推理；不需要额外的微调或知识蒸馏。

结果与发现

指标	结构化基线（例如 Wanda）	代理引导剪枝
稀疏度	~45 %	~45 %（相同）
MMLU 准确率	基线	+56 % 相对提升
FreebaseQA 事实召回	几乎完全崩溃	提升 19 倍的保留率
困惑度下降	大幅下降	下降 69 %
所需回滚次数	不适用（静态）	在所有迭代中需要 2–4 次回滚

该代理始终能够识别出“知识关键”层（通常是早期的 Transformer 块），并予以保留，同时对对事实推理贡献较小的层进行积极剪枝。自我反思机制防止了语言模型能力的灾难性丧失，使困惑度保持在可接受的范围内。

实际意义

可部署的轻量级 LLM：公司可以在无需昂贵再训练流水线的情况下，将 4‑8 B 参数模型稀疏到约 45% 的稀疏度，从而降低 GPU 内存占用和边缘或低成本云推理的延迟。
保持事实能力：与许多结构化剪枝方法不同，此方法保留了模型回答知识密集查询的能力，这对聊天机器人、检索增强生成和决策支持工具至关重要。
即插即用的压缩服务：由于该方法与模型无关，SaaS 服务可以接受任何兼容的仅解码器 LLM，运行由代理引导的剪枝循环，并返回可直接部署的稀疏检查点。
降低工程开销：回滚/自我反思循环自动化超参数调优（每层剪枝比例），让开发者摆脱手动稀疏预算的繁琐。
基础模型即工具：该案例展示了强大 LLM 可以作为其他模型的优化器的具体用例，为元学习流水线打开了大门（例如，能够同时建议量化或蒸馏策略的代理）。

Limitations & Future Work

Scope limited to decoder‑only LLMs: 论文仅评估了 Qwen‑3 4B/8B；对编码器‑解码器或多模态模型的适用性尚未测试。
Agent size not quantified: 剪枝代理本身是一个 LLM；在压缩过程中运行该代理的开销未深入讨论。
Heuristic thresholds: 困惑度回滚阈值是手动设定的；自适应或学习得到的阈值可能提升鲁棒性。
Knowledge‑type bias: 虽然事实性问答有所提升，但对其他任务（如推理、代码生成）的影响仍需进一步研究。
Future directions 包括将框架扩展到多目标剪枝（例如在延迟、内存和准确率之间平衡）、集成量化，以及探索自监督代理训练以降低对单独基础模型的依赖。

作者

Sai Varun Kodathala
Rakesh Vunnam

论文信息

arXiv ID: 2601.09694v1
分类: cs.CL, cs.AI, cs.CV
发布时间: 2026年1月14日
PDF: 下载 PDF

[论文] LLMs 可以压缩 LLMs：由代理进行的自适应剪枝

概述

关键贡献

方法论

结果与发现

实际意义

Limitations & Future Work

作者

论文信息

相关文章

[Paper] MHA2MLA-VLM：在视觉-语言模型中实现 DeepSeek 的经济型多头潜在注意力

[Paper] PubMed-OCR: PMC 开放获取 OCR 注释

[Paper] 解释在大型推理模型中是否具有泛化性？

[论文] 为 Gemini 构建生产就绪探针