[Paper] VLM是感知还是回忆?使用经典视觉错觉探究视觉感知与记忆
Source: arXiv - 2601.22150v1
概述
论文 “Do VLMs Perceive or Recall? Probing Visual Perception vs. Memory with Classic Visual Illusions” 探讨了为何大型视觉语言模型(VLM)在幻觉图像被翻转后仍给出相同答案——而人类会立刻察觉到这一变化。作者通过引入系统性的探测框架(VI‑Probe),区分 VLM 是真正 seeing 视觉变化,还是仅仅 recalling 训练数据中记忆的模式。
关键贡献
- VI‑Probe framework:一个可控的经典视觉错觉刺激套件,包含分级扰动和匹配的非错觉对照,能够对视觉语言模型(VLM)的行为进行细粒度探测。
- 新评估指标:
- Polarity‑Flip Consistency(衡量模型在错觉极性被反转时是否会改变答案)。
- Template Fixation Index(捕捉模型对静态文本模板的依赖程度)。
- Illusion Multiplier(将错觉引起的响应变化相对于匹配对照进行归一化)。
- Comprehensive empirical study:在多个 VLM 系列(GPT‑5、Claude‑Opus‑4.1、Qwen‑variants 等)上进行的全面实证研究,揭示了异质的失败模式,而非单一的“仅记忆”解释。
- Open‑source release:公开数据集、代码和分析脚本,鼓励对未来 VLM 进行可复现的探测。
方法论
-
刺激设计 – 作者选择了几类经典的视觉错觉族(例如 Müller‑Lyer、Kanizsa 和 Rubin 的花瓶)。对于每个错觉,他们生成了三个版本:
- 原始(标准错觉)。
- 极性翻转(错觉的线索被颠倒,产生相反的感知)。
- 对照(相同的视觉布局,但没有产生错觉的元素)。
图像在多个对比度水平下渲染,以创建 分级扰动 光谱。
-
提示协议 – 每张图像与一个简短、固定的问题一起输入到 VLM(例如 “What shape do you see?”)。相同的提示在所有三个版本中使用,以将视觉影响与语言偏差分离。
-
度量计算 –
- 极性翻转一致性 = 当错觉极性翻转时模型答案翻转的比例。
- 模板固定指数 = 错觉图像和对照图像答案之间的相似度(数值高表明依赖记忆的文本模板)。
- 错觉乘数 = (错觉上的响应变化)/(对照上的响应变化),量化超出基线语言漂移的视觉敏感性。
-
模型套件 – 本研究评估了 9 种最先进的 VLM,范围从多模态 GPT‑5 到开源的 Qwen‑VL,涵盖专有和学术系统。
Results & Findings
| Model | Polarity‑Flip Consistency | Template Fixation Index | Illusion Multiplier |
|---|---|---|---|
| GPT‑5 | 0.12 (低) | 0.84 (高) | 0.15 (记忆主导) |
| Claude‑Opus‑4.1 | 0.48 (中等) | 0.62 (混合) | 0.55 (感知‑记忆拉锯) |
| Qwen‑VL‑7B | 0.71 (更高) | 0.41 (更偏视觉) | 0.78 (视觉处理受限) |
| … | … | … | … |
- 没有单一的失效模式:某些模型(GPT‑5)基本忽略视觉翻转,表明出现了记忆覆盖,即学习到的文本模式占主导。其他模型(Claude‑Opus‑4.1)则在视觉线索与记忆模板之间竞争,仅在对比度更高的翻转时才改变答案。Qwen 系列对视觉变化的响应更明显,但仍表现出上限效应,暗示视觉处理能力限制。
- 梯度敏感性:在所有模型中,对比度更高(幻觉更强)会导致更高的 Illusion Multiplier,证实 VLM 并非对视觉变化完全盲目,但其敏感度远低于人类。
- 对照基线:即使在对照图像(无幻觉)上,模型有时也会在答案上出现漂移,这凸显了相对于仅语言噪声进行归一化的重要性。
Practical Implications
- Reliability of VLM‑driven UI/UX – 依赖 VLM 进行视觉问答的应用(例如描述图像的无障碍工具)在面对细微的视觉线索或对抗性模式时,可能产生 稳定但不正确 的描述。
- Safety & Content Moderation – 如果 VLM 能被“欺骗”而忽略视觉变化,恶意行为者可能嵌入模型未能注意到的有害视觉信号,而文本提示仍保持良性。
- Model Debugging & Auditing – VI‑Probe 指标为工程师提供具体诊断,帮助判断模型是过度依赖语言先验还是具备真实视觉感知,从而指导有针对性的微调或架构改动。
- Benchmark Design – 该框架可扩展到其他领域(例如医学影像),在这些领域中区分感知与记忆模式至关重要。
限制与未来工作
- 幻觉范围 – 本研究聚焦于少数经典的二维幻觉;更复杂、真实世界的视觉歧义(例如光照变化、遮挡)尚未测试。
- 提示多样性 – 使用单一固定提示可以隔离视觉效应,但未能捕捉提示工程如何减轻或加剧记忆偏差。
- 模型访问 – 某些专有 VLM(如 GPT‑5)通过 API 评估,内部表征的控制有限,可能将推理时缓存与真实感知混为一谈。
- 未来方向 – 作者建议将 VI‑Probe 扩展到视频流,整合眼动追踪数据以获得人类基准,并探索训练时干预(例如对比视觉‑语言目标)以降低模板固定效应。
底线:该工作表明,当前的大型 VLM 仍远未达到人类水平的视觉感知。通过提供系统化的探测工具包,作者为开发者提供了一种实用的方法来审计并提升这些日益驱动我们应用的模型的视觉敏感性。
作者
- Xiaoxiao Sun
- Mingyang Li
- Kun yuan
- Min Woo Sun
- Mark Endo
- Shengguang Wu
- Changlin Li
- Yuhui Zhang
- Zeyu Wang
- Serena Yeung‑Levy
论文信息
- arXiv ID: 2601.22150v1
- 类别: cs.CV
- 出版日期: 2026年1月29日
- PDF: 下载 PDF