[Paper] 视觉语言模型中提示诱导幻觉的机制
发布: (2026年1月9日 GMT+8 02:23)
6 min read
原文: arXiv
Source: arXiv - 2601.05201v1
Overview
大型视觉语言模型(VLMs)能够对图像提出开放式问题并给出答案,但它们有时会出现幻觉——即使视觉证据与之相矛盾,它们仍会重复或“复制”文本提示的措辞。本文通过一个简单的对象计数任务来揭示这一现象,并定位导致该问题的内部组件。
关键贡献
- 受控实验设置:引入一个干净的对象计数基准,其中提示故意夸大对象数量,使幻觉易于检测。
- 机制发现:识别出一小组注意力头(“PIH‑heads”),其消融在三种最先进的 VLM 中将提示诱导的幻觉(PIH)降低 ≥ 40 %,且无需额外训练。
- 模型特定分析:展示相同的头在不同架构中表现不同,揭示了提示复制实现的不同方式。
- 实证验证:证明移除 PIH‑heads 可促使模型更依赖视觉证据,提高计数准确性,尤其是在对象数量较多的情况下。
- 开源工具:提供计数基准和头消融实验的代码,支持可重复性和进一步探索。
方法论
- 任务设计 – 图像中包含已知数量的相同对象(例如,睡莲)。提示要求模型“描述 N 个对象”,其中 N 大于真实计数。
- 评估模型 – 三种流行的 VLM(基于 CLIP 的编码器‑解码器、BLIP 风格模型以及受 Flamingo 启发的架构)。
- 提示诱导幻觉度量 – 解析模型输出中提到的数字计数;当该计数与夸大的提示相匹配而非视觉真实值时,即视为幻觉。
- 注意力头探测 – 通过基于梯度的归因和因果中介分析,作者定位那些激活与幻觉计数高度相关的注意力头。
- 消融实验 – 在推理时将这些头的输出置零,并测量其对幻觉率及整体答案质量的影响。
该方法刻意保持轻量:无需微调,仅对少数注意力头进行有针对性的“外科”剔除。
结果与发现
| Model | Baseline PIH rate (high count) | PIH rate after head ablation | Accuracy gain |
|---|---|---|---|
| CLIP‑Encoder‑Decoder | 68 % | 38 % | +12 % correct counts |
| BLIP‑style | 71 % | 34 % | +15 % correct counts |
| Flamingo‑like | 65 % | 31 % | +13 % correct counts |
- Head count:每个模型仅需移除 3–5 个头部 即可实现报告的下降。
- Prompt copying mechanism:
- 基于 CLIP 的模型:头部充当一种 快捷方式,直接将提示中的数值 token 注入解码器的语言流。
- BLIP:头部在交叉注意之前放大提示嵌入。
- Flamingo:头部偏置视觉到文本的融合层。
- No side‑effects:整体语言流畅性和图像描述质量基本保持不变,证实这些头部专用于幻觉路径。
实际意义
- Debugging VLMs:开发者可以对模型进行仪器化,以监控已识别的 PIH‑head 活动,将其用作对易产生幻觉查询的早期预警信号。
- Lightweight mitigation:与其进行昂贵的微调或基于人类反馈的强化学习,不如在推理时使用简单的 head 掩码,部署在生产流水线中,以提升在数值准确性关键任务(例如库存计数、医学影像报告)上的可靠性。
- Design guidelines:模型架构师可以有意 decouple prompt encoding 与视觉定位解耦,或加入正则化,抑制早期注意力层中直接复制提示的行为。
- Safety & compliance:减少幻觉有助于满足对必须提供基于事实输出的 AI 系统的监管标准(例如自主检查、合规报告)。
限制与未来工作
- 任务范围:本研究聚焦于合成计数情境;对更复杂、开放式描述的幻觉动态可能有所不同。
- 模型多样性:仅检查了三类 VLM 家族;更新的多模态 Transformer(例如 GPT‑4‑V、LLaVA)可能呈现其他幻觉路径。
- 消融副作用:虽然在测试基准中语言流畅性保持稳定,但在此未覆盖的下游任务中可能出现细微偏差。
- 未来方向:将分析扩展到真实世界数据集,探索在训练时抑制 PIH‑heads 的正则化方法,并研究其他模态(音频、视频)是否存在类似的“复制‑捷径” heads。
作者
- William Rudman
- Michal Golovanevsky
- Dana Arad
- Yonatan Belinkov
- Ritambhara Singh
- Carsten Eickhoff
- Kyle Mahowald
论文信息
- arXiv ID: 2601.05201v1
- 分类: cs.CV, cs.AI, cs.CL
- 发表时间: 2026年1月8日
- PDF: 下载 PDF