[Paper] MentisOculi: 揭示使用心理意象进行推理的局限性
发布: (2026年2月3日 GMT+8 02:49)
7 min read
原文: arXiv
Source: arXiv - 2602.02465v1
Overview
本文介绍了 MentisOculi,一个基准,用于测试现代多模态模型是否能够像人类一样通过视觉意象进行 think——形成、保持和操作心理图像以帮助多步骤推理。通过对最先进的统一多模态模型(UMMs)和带视觉扩展的大型语言模型进行探测,作者发现当前的视觉 “thoughts” 很少提升问题解决性能。
关键贡献
- MentisOculi benchmark – 一个程序生成的、分层的多步骤推理任务套件,可通过纯文本或中间可视化方式解决。
- Comprehensive evaluation 对广泛的视觉策略进行全面评估,从基于潜在 token 的“心象”到显式图像生成,覆盖多个前沿模型(例如 GPT‑4V、LLaVA、Gemini)。
- Empirical finding 表明视觉中间步骤 并未提升 推理准确性;在许多情况下,由于错误累积,它们甚至会降低性能。
- Diagnostic analysis 显示 UMMs 常常能够生成正确的最终答案 以及 合理的视觉内容,但它们未能将两者整合——例如,无法利用真实的可视化来提升文本推理。
- Open‑source release 提供基准代码及一套诊断工具,帮助社区衡量并弥合视觉生成与视觉推理之间的差距。
方法论
- 任务设计 – 每个问题都是多步骤逻辑谜题(例如几何、空间规划、基于图表的推理),可以通过视觉方式得到解答。任务按难度层级分组,并自动生成以确保多样性和可扩展性。
- 模型变体 – 作者测试了三类模型:
- 纯语言模型(仅文本)。
- 潜在视觉模型,在内部保留视觉 token 流(不输出显式图像)。
- 显式视觉模型,在每个推理步骤生成图像。
- 提示协议 – 对于每一步,模型接收描述当前子目标的提示,并在适用时提供先前生成的视觉(或用于消融实验的真实视觉)。
- 评估指标 – 最终答案的准确率、视觉保真度(当生成图像时),以及衡量视觉是否真正影响后续文本推理的 视觉整合得分。
- 错误分析 – 作者追踪失效模式:潜在表征中的 token 漂移、图像生成伪影,以及语言组件对视觉输入的条件化能力不足。
结果与发现
| 模型系列 | 最终答案准确率(无视觉) | 潜在视觉准确率 | 明确视觉准确率 |
|---|---|---|---|
| LLM‑only | 68 % | – | – |
| Latent‑visual | 70 % | 62 %(下降) | – |
| Explicit‑visual | 71 % | – | 58 %(下降) |
- 没有性能提升,加入视觉步骤后准确率反而下降,潜在视觉和明确视觉策略均出现 10–15 % 的下降。
- 即使提供真实的可视化,UMM 仍未能提升,表明视觉编码器与推理引擎之间存在脱节。
- 视觉输出往往看起来合理(图像质量高),但与后续推理所需的逻辑状态不匹配,导致错误累积。
- 基准测试的分层显示,在更高难度层级上差距进一步扩大,因为多步规划的需求更高。
实际意义
- 开发者工具 – 如果你在构建依赖“图像思考”(例如代码到图表生成器、设计助理、机器人规划器)的 AI 助手,这项工作提醒当前的 UMM(统一多模态模型)无法可靠地利用中间图像来提升推理能力。
- 模型集成 – 将语言模型与独立视觉模块串联的系统(例如生成图表后让 LLM 进行解释)可能需要显式的 交接 机制,而不能仅仅依赖模型自行协调。
- 基准采纳 – MentisOculi 可以作为任何声称具备视觉推理能力的新多模态架构的回归测试,帮助团队及早发现集成错误。
- 产品路线图 – 旨在打造真正多模态代理的公司应优先考虑 联合训练 或 跨模态注意力 机制,以紧密绑定视觉和文本通路,而不是把视觉生成当作事后考虑。
限制与未来工作
- 基准测试聚焦于合成的几何风格问题;真实世界领域(例如医学成像、CAD)可能表现出不同的动态。
- 只评估了一小部分 UMM;研究之后发布的更新模型可能表现不同。
- 分析未探讨 微调 策略,即明确教模型基于视觉反馈进行条件化——作者将此视为未来研究方向。
- 将 MentisOculi 扩展至包括 交互式 视觉推理(例如能够编辑图像的代理)并衡量 效率(视觉步骤的计算成本)被确定为下一步工作。
作者
- Jana Zeller
- Thaddäus Wiedemer
- Fanfei Li
- Thomas Klein
- Prasanna Mayilvahanan
- Matthias Bethge
- Felix Wichmann
- Ryan Cotterell
- Wieland Brendel
论文信息
- arXiv ID: 2602.02465v1
- 分类: cs.AI, cs.CV, cs.LG
- 出版日期: 2026年2月2日
- PDF: 下载 PDF