[Paper] 量化鲁棒 LLM 遗忘通过低秩适配

发布: (2026年2月14日 GMT+8 02:01)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.13151v1

请提供您希望翻译的具体文本内容,我将按照要求保留源链接并进行简体中文翻译。

概述

本文解决了在部署大型语言模型(LLM)时的一个实际难题:在对微调模型进行“忘记”(即删除)特定知识后,激进的后训练量化(PTQ)——通常用于在边缘设备上运行模型或降低推理成本——可能会抹掉这些忘记的更新。作者展示了标准的全参数微调产生的权重变化过于微小,无法在 4‑bit 量化中存活,并提出了一种基于 LoRA(低秩适配)的方案,即使在量化后也能保持忘记效果。

关键贡献

  • 识别量化导致的遗忘逆转: 证明在使用传统全参数遗忘方法时,4 位 PTQ 可以恢复模型在未遗忘前的行为。
  • 基于 LoRA 的遗忘流水线: 引入一种工作流,将基础 LLM 冻结,所有遗忘更新集中到低秩适配器模块,使更改对低位量化具有鲁棒性。
  • Llama‑2‑7B 的实证提升: 在 MUSE BOOKS 基准上实现了 4 位效用提升 +7.93 分,在 NEWS 基准上提升 +4.76 分,相较于全参数遗忘。
  • 改进的隐私泄漏指标: 显示出隐私泄漏显著下降(例如,BOOKS 上的 GA+KLR 从 –25.68 降至 –5.86),同时保持强遗忘(VerMem 与 KnowMem ≈ 0)。
  • 开源友好的配方: 提供了可复现的流水线,可插入现有 PTQ 工具链(如 GPTQ、AWQ),仅需最少代码修改。

方法论

  1. 基线忘记(全参数微调):

    • 在“忘记”数据集上对整个 LLM 进行微调,旨在降低模型回忆该数据的能力。
    • 微调后,使用标准 PTQ 算法将模型量化为 4 位。
  2. 基于 LoRA 的忘记:

    • 冻结基础模型(7B Llama‑2 权重保持不变)。
    • 在每个 transformer 层插入 低秩适配器矩阵(通常秩 = 4–8)。
    • 仅在忘记数据集上训练 适配器。由于适配器是独立的,它们的权重更新量级远大于分散在整个模型中的微小变化。
    • 适配器训练完成后,对 组合模型(基础模型 + 适配器) 应用 4‑bit PTQ。适配器的较大幅度更新在量化后仍然保留,从而保持忘记效果。
  3. 评估套件:

    • 实用性: 使用 NPO(Negative Prompt Overlap)+ GDR(Generalized Dialogue Recall)在 MUSE BOOKS 和 NEWS 子集上进行测量。
    • 遗忘程度: 通过 VerMem(Verification Memory)和 KnowMem(Knowledge Memory)评估——成功忘记后两者应接近零。
    • 隐私泄漏: 使用 PrivLeak 指标量化(越接近 0 表示泄漏越少)。

该流水线刻意保持轻量:训练 LoRA 适配器通常只需 < 1 % 的全模型微调计算量,且适配器仅为模型体积增加几兆字节。

结果与发现

基准指标全参数 (4 位)LoRA (4 位)Δ
MUSE BOOKSNPO+GDR50.1758.10+7.93
MUSE NEWSGA+GDR40.0644.82+4.76
隐私 (GA+KLR, BOOKS)PrivLeak–25.68–5.86+19.82(泄漏显著减少)
遗忘VerMem / KnowMem≈ 0(两者皆是)≈ 0(两者皆是)

关键要点

  • 效用提升,尽管采用了激进的 4 位量化,这表明 LoRA 适配器在遗忘后仍保留了更多模型的表达能力。
  • 隐私泄漏显著下降,这意味着攻击者对量化模型的探测更不可能恢复被遗忘的数据。
  • 训练成本大幅降低——LoRA 适配器在几百步内收敛,而全参数微调可能需要数千步。

Practical Implications

  • Edge & mobile deployment: 在设备上部署 LLM‑驱动功能(例如设备助手、代码补全工具)的公司,现在可以在不牺牲量化带来的低内存占用的前提下,满足“被遗忘权”请求。
  • Regulatory compliance: GDPR‑类的数据删除要求可以更可靠地满足,因为去学习的效果在量化步骤后仍然保留,而量化通常是生产推理管线的必需步骤。
  • Cost‑effective model updates: 不必每次需要删除数据时都重新训练或微调整个模型,团队只需更新少量适配器并重新量化,从而节省 GPU 时间和云费用。
  • Toolchain integration: 该方法可以直接接入现有的 PTQ 库(例如 bitsandbytesGPTQ)和 LoRA 框架(peftloralib),使已经熟悉这些生态系统的开发者能够轻松采用。

限制与未来工作

  • 范围仅限于 4‑bit PTQ: 研究聚焦于 4‑bit 量化;在更极端的量化(例如 2‑bit)或混合精度方案下的行为尚未探索。
  • Adapter 阶数选择: 虽然论文使用了固定的低阶数,但最佳阶数可能随模型规模和下游任务而变化;自动化的阶数搜索可能提升鲁棒性。
  • 对其他架构的泛化: 实验仅限于 Llama‑2‑7B;将该方法应用于仅编码器模型(如 BERT)或多模态 LLM 可能需要额外的调整。
  • 长期遗忘稳定性: 论文在忘记后不久进行评估;未来工作应评估该效果在进一步微调或持续学习循环后是否仍然存在。

作者

  • João Vitor Boer Abitante
  • Joana Meneguzzo Pasquali
  • Luan Fonseca Garcia
  • Ewerton de Oliveira
  • Thomas da Silva Paula
  • Rodrigo C. Barros
  • Lucas S. Kupssinskü

论文信息

  • arXiv ID: 2602.13151v1
  • 类别: cs.LG, cs.CL
  • 出版时间: 2026年2月13日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »