[论文] 无对象幻觉的强化反学习用于视觉‑语言模型

发布: (2026年5月9日 GMT+8 01:19)
8 分钟阅读
原文: arXiv

Source: arXiv - 2605.08031v1

(未提供需要翻译的正文内容,请提供具体文本以便进行翻译。)

概览

本文介绍了 HFRU(Hallucination‑Free Reinforcement Unlearning),这是一种让视觉语言模型(VLMs)忘记特定视觉概念的新方法,且不会留下“幽灵”对象或削弱模型的整体能力。通过针对视觉编码器而非仅仅语言解码器,作者实现了对不需要的知识进行深层、可靠的擦除,同时保持模型在下游任务中的实用性。

关键贡献

  • Deep‑encoder unlearning: 首个直接修改视觉编码器以移除视觉语义的框架,避免了表面的遗忘。
  • Two‑stage reinforcement pipeline:
    1. Alignment disruption – 打破目标概念的视觉特征与文本标记之间的紧密耦合。
    2. GRPO‑based optimization – 使用复合奖励(对齐、抽象和幻觉惩罚)引导编码器恢复到干净状态。
  • Abstraction reward: 鼓励模型用语义上有效的替代物(例如,用 “a vehicle” 代替具体的汽车型号)来替换被擦除的对象,从而显著降低对象幻觉。
  • Empirical breakthroughs: 在对象识别和人脸身份基准上实现了 >98 % 的遗忘率,同时在无关任务上保持 >95 % 的原始性能。
  • Open‑source release: 提供完整代码、预训练检查点以及可复现性脚本。

方法论

  1. 问题设定 – 给定一个预训练的 VLM 和一组“敏感”视觉概念(例如,特定人物的面孔或受版权保护的艺术作品),目标是从模型的内部表征中抹去这些概念的任何痕迹。
  2. 阶段 1 – 对齐破坏
    • 使用对比损失将目标概念的视觉编码器输出向量扰动,使其远离原始的文本嵌入。
    • 这一步在视觉特征与语言解码器之间创建了一个“鸿沟”,使模型不太可能检索到被禁用的概念。
  3. 阶段 2 – 强化引导优化 (GRPO)
    • 奖励设计:
      • 对齐奖励 – 对修改后视觉特征与原始文本标记之间的残余相似度进行惩罚。
      • 抽象奖励 – 当模型用更高层次、语义上正确的描述(例如,用 “动物” 代替 “狗”)替代被抹去的概念时给予奖励。
      • 幻觉惩罚 – 抑制在粗糙的去学习后常出现的无关对象生成。
    • 使用策略梯度算法(GRPO)更新编码器权重,以最大化复合奖励,实质上在保持语义连贯的同时“重新训练”编码器以忘记特定概念。
  4. 评估协议 – 作者从两个方面测试忘记效果:(a) 对象识别(例如,ImageNet 风格的分类)和 (b) 面部身份检索(跨视角匹配人脸)。在应保持完整的一组概念的保留上进行测量。

结果与发现

指标HFRU先前仅解码器的去学习基线(无去学习)
遗忘(目标类别的 Top‑1 下降)98.3 %71.4 %0 %
保留(非目标类别的准确率)95.7 %88.2 %96.1 %
对象幻觉(虚假对象率)0.9 %6.8 %0.5 %
人脸‑ID 移除(验证 AUC)0.12(接近随机)0.340.99
  • 深度遗忘: 通过在编码器上操作,HFRU 消除目标概念的视觉指纹,而不仅仅是文本标签。
  • 副作用最小: 抽象奖励使模型输出保持合理,防止了早期方法中出现的“幻觉”对象。
  • 可扩展性: 对高达 5 % 的 ImageNet 类别进行去除的实验显示相同趋势,表明该方法能够处理更大范围的去学习。

实际意义

  • 隐私合规的 AI 服务: 公司可以在不重新构建整个模型的情况下,追溯性地从其 VLM(视觉语言模型)中删除用户提交的图像(例如人脸、受版权保护的艺术作品)。
  • 版权执法: 媒体平台可以从模型的知识库中移除特定的受版权保护的对象,降低法律风险,同时保持整体性能。
  • 偏见缓解: 可以让 VLM “忘记”敏感的人口统计群体,帮助在下游应用(如图像字幕或视觉搜索)中抑制无意的偏见。
  • 开发者工作流: HFRU 可作为微调 VLM 后的插件步骤集成,仅需少量额外计算(约为原始训练成本的 0.3 倍)。
  • 开源工具: 已发布的代码库包含用于定义自定义“忘记列表”的脚本,使工程师能够轻松在生产流水线中采用该方法。

限制与未来工作

  • 计算开销: 虽然比完整再训练更便宜,但两阶段强化过程仍会为大规模模型(例如 CLIP‑ViT‑L/14)增加显著的延迟。
  • 抽象范围: 抽象奖励在通用类别上表现良好,但在高度细微的概念上可能会遇到困难(例如,特定的医学影像发现)。
  • 评估广度: 论文聚焦于分类和人脸识别任务;将 HFRU 应用于生成式视觉语言模型(例如图像到文本生成)仍是一个未解之谜。
  • 未来方向: 作者建议探索更高效的策略梯度变体,将框架扩展到多模态生成模型,并自动化抽象词汇的选择,以进一步降低幻觉风险。

作者

  • Kaidi Jia
  • Yujie Lin
  • Chengyi Yang
  • Jiayao Ma
  • Jinsong Su

论文信息

  • arXiv ID: 2605.08031v1
  • 类别: cs.CV
  • 出版日期: 2026年5月8日
  • PDF: Download PDF
0 浏览
Back to Blog

相关文章

阅读更多 »