[Paper] 视觉语言模型中提示诱导幻觉的机制

发布: (2026年1月9日 GMT+8 02:23)
6 min read
原文: arXiv

Source: arXiv - 2601.05201v1

Overview

大型视觉语言模型(VLMs)能够对图像提出开放式问题并给出答案,但它们有时会出现幻觉——即使视觉证据与之相矛盾,它们仍会重复或“复制”文本提示的措辞。本文通过一个简单的对象计数任务来揭示这一现象,并定位导致该问题的内部组件。

关键贡献

  • 受控实验设置:引入一个干净的对象计数基准,其中提示故意夸大对象数量,使幻觉易于检测。
  • 机制发现:识别出一小组注意力头(“PIH‑heads”),其消融在三种最先进的 VLM 中将提示诱导的幻觉(PIH)降低 ≥ 40 %,且无需额外训练。
  • 模型特定分析:展示相同的头在不同架构中表现不同,揭示了提示复制实现的不同方式。
  • 实证验证:证明移除 PIH‑heads 可促使模型更依赖视觉证据,提高计数准确性,尤其是在对象数量较多的情况下。
  • 开源工具:提供计数基准和头消融实验的代码,支持可重复性和进一步探索。

方法论

  1. 任务设计 – 图像中包含已知数量的相同对象(例如,睡莲)。提示要求模型“描述 N 个对象”,其中 N 大于真实计数。
  2. 评估模型 – 三种流行的 VLM(基于 CLIP 的编码器‑解码器、BLIP 风格模型以及受 Flamingo 启发的架构)。
  3. 提示诱导幻觉度量 – 解析模型输出中提到的数字计数;当该计数与夸大的提示相匹配而非视觉真实值时,即视为幻觉。
  4. 注意力头探测 – 通过基于梯度的归因和因果中介分析,作者定位那些激活与幻觉计数高度相关的注意力头。
  5. 消融实验 – 在推理时将这些头的输出置零,并测量其对幻觉率及整体答案质量的影响。

该方法刻意保持轻量:无需微调,仅对少数注意力头进行有针对性的“外科”剔除。

结果与发现

ModelBaseline PIH rate (high count)PIH rate after head ablationAccuracy gain
CLIP‑Encoder‑Decoder68 %38 %+12 % correct counts
BLIP‑style71 %34 %+15 % correct counts
Flamingo‑like65 %31 %+13 % correct counts
  • Head count:每个模型仅需移除 3–5 个头部 即可实现报告的下降。
  • Prompt copying mechanism
    • 基于 CLIP 的模型:头部充当一种 快捷方式,直接将提示中的数值 token 注入解码器的语言流。
    • BLIP:头部在交叉注意之前放大提示嵌入。
    • Flamingo:头部偏置视觉到文本的融合层。
  • No side‑effects:整体语言流畅性和图像描述质量基本保持不变,证实这些头部专用于幻觉路径。

实际意义

  • Debugging VLMs:开发者可以对模型进行仪器化,以监控已识别的 PIH‑head 活动,将其用作对易产生幻觉查询的早期预警信号。
  • Lightweight mitigation:与其进行昂贵的微调或基于人类反馈的强化学习,不如在推理时使用简单的 head 掩码,部署在生产流水线中,以提升在数值准确性关键任务(例如库存计数、医学影像报告)上的可靠性。
  • Design guidelines:模型架构师可以有意 decouple prompt encoding 与视觉定位解耦,或加入正则化,抑制早期注意力层中直接复制提示的行为。
  • Safety & compliance:减少幻觉有助于满足对必须提供基于事实输出的 AI 系统的监管标准(例如自主检查、合规报告)。

限制与未来工作

  • 任务范围:本研究聚焦于合成计数情境;对更复杂、开放式描述的幻觉动态可能有所不同。
  • 模型多样性:仅检查了三类 VLM 家族;更新的多模态 Transformer(例如 GPT‑4‑V、LLaVA)可能呈现其他幻觉路径。
  • 消融副作用:虽然在测试基准中语言流畅性保持稳定,但在此未覆盖的下游任务中可能出现细微偏差。
  • 未来方向:将分析扩展到真实世界数据集,探索在训练时抑制 PIH‑heads 的正则化方法,并研究其他模态(音频、视频)是否存在类似的“复制‑捷径” heads。

作者

  • William Rudman
  • Michal Golovanevsky
  • Dana Arad
  • Yonatan Belinkov
  • Ritambhara Singh
  • Carsten Eickhoff
  • Kyle Mahowald

论文信息

  • arXiv ID: 2601.05201v1
  • 分类: cs.CV, cs.AI, cs.CL
  • 发表时间: 2026年1月8日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »