[论文] LLMs 可以压缩 LLMs:由代理进行的自适应剪枝

发布: (2026年1月15日 GMT+8 02:45)
7 min read
原文: arXiv

Source: arXiv - 2601.09694v1

概述

本文提出了一种新颖的“agent‑guided”剪枝技术,使一个大型语言模型(LLM)充当智能控制器,以压缩另一个 LLM。通过使用基于 LLM 的代理决定 wherehow much 剪枝,作者实现了约 45 % 的高稀疏度,同时在 MMLU 和 factual QA 等基准测试上保持甚至提升下游性能。该方法无需任何再训练,对需要轻量化模型用于生产的开发者具有吸引力。

关键贡献

  • Agent‑guided pruning: 引入一个基础模型,迭代选择每层稀疏比例,取代手工制定的启发式方法。
  • Hybrid sensitivity metric: 将 Wanda 风格的权重‑激活分数与基于梯度的重要性相结合,并归一化为 z 分数以进行跨层比较。
  • Self‑reflection & rollback: 剪枝代理在每次迭代后评估困惑度,如果下降超过阈值则回滚,并从过去的决策中学习。
  • Model‑agnostic, training‑free: 可在任何仅解码器的 LLM 上使用(在 Qwen‑3 4B/8B 上演示),无需额外微调。
  • Empirical gains: 在约 45% 稀疏度下,实现相对 MMLU 准确率提升 56%,在 FreebaseQA 上事实知识保留提升 19 倍,并且相较于结构化基线,困惑度下降降低 69%。

方法论

  1. 灵敏度分析 – 对每一层,方法计算两个分数:

    • Wanda‑inspired weight‑activation magnitude(衡量权重对激活的贡献程度)。
    • Gradient importance(如果移除该权重,损失会改变多少)。
      这些分数会被转换为 z‑score,以便在不同层之间进行比较。
  2. LLM 剪枝代理 – 一个独立的 LLM(即“代理”)接收每层的 z‑score 表以及描述当前剪枝状态的简短提示。随后它输出每层的稀疏率。代理配备了 self‑reflection loop:剪枝后,在验证集上测量目标模型的 perplexity;如果下降超过预设阈值,系统会回滚到上一个检查点,代理会修改其建议。

  3. 迭代剪枝 – 该过程重复 21–40 次迭代。每次迭代剪除少量权重,进行评估,并可能回滚。随着时间推移,代理“学习”哪些层能够承受激进的剪枝,哪些层需要保持密集。

  4. 无需再训练 – 最终的稀疏模型在剪枝循环结束后即可直接用于推理;不需要额外的微调或知识蒸馏。

结果与发现

指标结构化基线(例如 Wanda)代理引导剪枝
稀疏度~45 %~45 %(相同)
MMLU 准确率基线+56 % 相对提升
FreebaseQA 事实召回几乎完全崩溃提升 19 倍的保留率
困惑度下降大幅下降下降 69 %
所需回滚次数不适用(静态)在所有迭代中需要 2–4 次回滚

该代理始终能够识别出“知识关键”层(通常是早期的 Transformer 块),并予以保留,同时对对事实推理贡献较小的层进行积极剪枝。自我反思机制防止了语言模型能力的灾难性丧失,使困惑度保持在可接受的范围内。

实际意义

  • 可部署的轻量级 LLM:公司可以在无需昂贵再训练流水线的情况下,将 4‑8 B 参数模型稀疏到约 45% 的稀疏度,从而降低 GPU 内存占用和边缘或低成本云推理的延迟。
  • 保持事实能力:与许多结构化剪枝方法不同,此方法保留了模型回答知识密集查询的能力,这对聊天机器人、检索增强生成和决策支持工具至关重要。
  • 即插即用的压缩服务:由于该方法与模型无关,SaaS 服务可以接受任何兼容的仅解码器 LLM,运行由代理引导的剪枝循环,并返回可直接部署的稀疏检查点。
  • 降低工程开销:回滚/自我反思循环自动化超参数调优(每层剪枝比例),让开发者摆脱手动稀疏预算的繁琐。
  • 基础模型即工具:该案例展示了强大 LLM 可以作为其他模型的优化器的具体用例,为元学习流水线打开了大门(例如,能够同时建议量化或蒸馏策略的代理)。

Limitations & Future Work

  • Scope limited to decoder‑only LLMs: 论文仅评估了 Qwen‑3 4B/8B;对编码器‑解码器或多模态模型的适用性尚未测试。
  • Agent size not quantified: 剪枝代理本身是一个 LLM;在压缩过程中运行该代理的开销未深入讨论。
  • Heuristic thresholds: 困惑度回滚阈值是手动设定的;自适应或学习得到的阈值可能提升鲁棒性。
  • Knowledge‑type bias: 虽然事实性问答有所提升,但对其他任务(如推理、代码生成)的影响仍需进一步研究。
  • Future directions 包括将框架扩展到多目标剪枝(例如在延迟、内存和准确率之间平衡)、集成量化,以及探索自监督代理训练以降低对单独基础模型的依赖。

作者

  • Sai Varun Kodathala
  • Rakesh Vunnam

论文信息

  • arXiv ID: 2601.09694v1
  • 分类: cs.CL, cs.AI, cs.CV
  • 发布时间: 2026年1月14日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »