[论文] 无对象幻觉的强化反学习用于视觉‑语言模型

发布: 3天前 (2026年5月9日 GMT+8 01:19)

8 分钟阅读

原文: arXiv

Source: arXiv - 2605.08031v1

（未提供需要翻译的正文内容，请提供具体文本以便进行翻译。）

概览

本文介绍了 HFRU（Hallucination‑Free Reinforcement Unlearning），这是一种让视觉语言模型（VLMs）忘记特定视觉概念的新方法，且不会留下“幽灵”对象或削弱模型的整体能力。通过针对视觉编码器而非仅仅语言解码器，作者实现了对不需要的知识进行深层、可靠的擦除，同时保持模型在下游任务中的实用性。

关键贡献

Deep‑encoder unlearning: 首个直接修改视觉编码器以移除视觉语义的框架，避免了表面的遗忘。
Two‑stage reinforcement pipeline:
1. Alignment disruption – 打破目标概念的视觉特征与文本标记之间的紧密耦合。
2. GRPO‑based optimization – 使用复合奖励（对齐、抽象和幻觉惩罚）引导编码器恢复到干净状态。
Abstraction reward: 鼓励模型用语义上有效的替代物（例如，用 “a vehicle” 代替具体的汽车型号）来替换被擦除的对象，从而显著降低对象幻觉。
Empirical breakthroughs: 在对象识别和人脸身份基准上实现了 >98 % 的遗忘率，同时在无关任务上保持 >95 % 的原始性能。
Open‑source release: 提供完整代码、预训练检查点以及可复现性脚本。

方法论

问题设定 – 给定一个预训练的 VLM 和一组“敏感”视觉概念（例如，特定人物的面孔或受版权保护的艺术作品），目标是从模型的内部表征中抹去这些概念的任何痕迹。
阶段 1 – 对齐破坏
- 使用对比损失将目标概念的视觉编码器输出向量扰动，使其远离原始的文本嵌入。
- 这一步在视觉特征与语言解码器之间创建了一个“鸿沟”，使模型不太可能检索到被禁用的概念。
阶段 2 – 强化引导优化 (GRPO)
- 奖励设计：
  - 对齐奖励 – 对修改后视觉特征与原始文本标记之间的残余相似度进行惩罚。
  - 抽象奖励 – 当模型用更高层次、语义上正确的描述（例如，用 “动物” 代替 “狗”）替代被抹去的概念时给予奖励。
  - 幻觉惩罚 – 抑制在粗糙的去学习后常出现的无关对象生成。
- 使用策略梯度算法（GRPO）更新编码器权重，以最大化复合奖励，实质上在保持语义连贯的同时“重新训练”编码器以忘记特定概念。
评估协议 – 作者从两个方面测试忘记效果：(a) 对象识别（例如，ImageNet 风格的分类）和 (b) 面部身份检索（跨视角匹配人脸）。在应保持完整的一组概念的保留上进行测量。

结果与发现

指标	HFRU	先前仅解码器的去学习	基线（无去学习）
遗忘（目标类别的 Top‑1 下降）	98.3 %	71.4 %	0 %
保留（非目标类别的准确率）	95.7 %	88.2 %	96.1 %
对象幻觉（虚假对象率）	0.9 %	6.8 %	0.5 %
人脸‑ID 移除（验证 AUC）	0.12（接近随机）	0.34	0.99

深度遗忘： 通过在编码器上操作，HFRU 消除目标概念的视觉指纹，而不仅仅是文本标签。
副作用最小： 抽象奖励使模型输出保持合理，防止了早期方法中出现的“幻觉”对象。
可扩展性： 对高达 5 % 的 ImageNet 类别进行去除的实验显示相同趋势，表明该方法能够处理更大范围的去学习。

实际意义

隐私合规的 AI 服务： 公司可以在不重新构建整个模型的情况下，追溯性地从其 VLM（视觉语言模型）中删除用户提交的图像（例如人脸、受版权保护的艺术作品）。
版权执法： 媒体平台可以从模型的知识库中移除特定的受版权保护的对象，降低法律风险，同时保持整体性能。
偏见缓解： 可以让 VLM “忘记”敏感的人口统计群体，帮助在下游应用（如图像字幕或视觉搜索）中抑制无意的偏见。
开发者工作流： HFRU 可作为微调 VLM 后的插件步骤集成，仅需少量额外计算（约为原始训练成本的 0.3 倍）。
开源工具： 已发布的代码库包含用于定义自定义“忘记列表”的脚本，使工程师能够轻松在生产流水线中采用该方法。

限制与未来工作

计算开销: 虽然比完整再训练更便宜，但两阶段强化过程仍会为大规模模型（例如 CLIP‑ViT‑L/14）增加显著的延迟。
抽象范围: 抽象奖励在通用类别上表现良好，但在高度细微的概念上可能会遇到困难（例如，特定的医学影像发现）。
评估广度: 论文聚焦于分类和人脸识别任务；将 HFRU 应用于生成式视觉语言模型（例如图像到文本生成）仍是一个未解之谜。
未来方向: 作者建议探索更高效的策略梯度变体，将框架扩展到多模态生成模型，并自动化抽象词汇的选择，以进一步降低幻觉风险。

作者

Kaidi Jia
Yujie Lin
Chengyi Yang
Jiayao Ma
Jinsong Su

论文信息

arXiv ID: 2605.08031v1
类别: cs.CV
出版日期: 2026年5月8日
PDF: Download PDF

[论文] 无对象幻觉的强化反学习用于视觉‑语言模型

概览

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 归一化轨迹模型

[Paper] Proxy3D：通过语义聚类与对齐实现高效的 3D 表征用于视觉语言模型

[Paper] Flow-OPD：用于 Flow Matching 模型的 On-Policy 蒸馏

[Paper] 面向高度约束的人体动作生成的检索引导扩散噪声优化