[论文] UnAC:自适应视觉提示与抽象及逐步检查用于复杂多模态推理

发布: (2026年5月6日 GMT+8 00:36)
8 分钟阅读
原文: arXiv

Source: arXiv - 2605.03950v1

(请提供需要翻译的正文内容,我将为您翻译成简体中文。)

Overview

论文 “UnAC: Adaptive Visual Prompting with Abstraction and Stepwise Checking for Complex Multimodal Reasoning” 解决了大型多模态模型(LMM),如 GPT‑4o、Gemini 1.5 和 GPT‑4V 的一个长期弱点:它们在原始视觉感知方面表现出色,但在任务需要对视觉证据进行多步逻辑推理时常常出现失误。UnAC 引入了一种提示框架,能够 (1) 自适应地突出最具信息量的图像区域,(2) 将这些区域抽象为简洁的文本线索,以及 (3) 通过自检循环验证每一步推理。实验表明,该方法在具有挑战性的多模态基准上显著提升了性能。

关键贡献

  • 自适应视觉提示 – 一种动态区域选择机制,在回答之前引导 LMM 关注显著的图像部分。
  • 图像抽象提示 – 将视觉细节转换为紧凑的文本摘要,使语言核心更易推理。
  • 渐进自检(分步检查) – 将复杂查询分解为子问题,检查每个子答案,并迭代细化最终响应。
  • 统一提示流水线(UnAC) – 将上述三个组件整合为单一、模型无关的提示策略。
  • 实证验证 – 在三个公开的多模态推理基准上实现了最先进的提升:MathVista、MM‑Vet 和 MMMU。

方法论

  1. 显著区域检测

    • 输入图像首先由轻量级视觉检测器处理(例如基于 CLIP 的检测器或预训练的目标检测器)。
    • 检测器输出一组边界框,按与用户查询的相关性排序(通过查询嵌入与区域嵌入之间的相似度计算)。
    • 仅保留前 k 个区域,以降低视觉噪声并聚焦 LMM 的注意力。
  2. 抽象提示

    • 对于每个选定的区域,使用冻结的视觉到文本模型(例如 BLIP‑2)生成简短的文本描述。
    • 这些描述被串联成一个位于主提示之前的 “图像抽象” 块。
    • 该抽象充当精炼的视觉摘要,使 LMM 的语言引擎能够基于文本而非原始像素进行操作。
  3. 逐步分解与检查

    • 原始的复杂问题被拆分为一系列子问题(可以是手动设计的,也可以通过链式思考方式自动生成)。
    • 在每个子答案之后,自检提示会要求模型验证其与抽象及前置步骤的一致性(例如,“该答案是否基于对三角形角度描述的区域?”)。
    • 如果检查未通过,模型将被提示在继续之前修正子答案。
  4. 统一提示组装

    • 提供给 LMM 的最终提示遵循以下顺序:用户查询 → 自适应区域列表 → 图像抽象 → 带检查的分解子问题 → 最终答案
    • 无需对模型进行微调;该方法完全在推理阶段工作。

Source:

结果与发现

基准基线 LMM(无 UnAC)LMM + UnAC相对提升
MathVista(复杂视觉数学)48.2 %57.9 %+9.7 pp
MM‑Vet(视觉‑语言推理)61.5 %70.3 %+8.8 pp
MMMU(多模态多选)55.0 %63.4 %+8.4 pp
  • 消融实验表明,每个组件都有贡献:自适应提示单独提升约 3 pp,抽象提升约 4 pp,逐步检查提升约 2 pp。
  • 该方法是 模型无关 的:在 GPT‑4V、Gemini 1.5 和 Claude‑3‑Vision 上均观察到类似的改进。
  • 定性分析显示,自检循环能够捕捉常见的幻觉(例如误读图表轴),并迫使模型重新评估模糊的视觉线索。

实际意义

  • 开发者工具 – 将 UnAC 集成到现有的 LMM API 中,可以将通用的视觉语言端点转变为更可靠的推理引擎,而无需额外的训练数据。
  • 企业问答与支持 – 需要解释截图、图表或收据的客服机器人可以通过区域聚焦和抽象步骤受益,从而减少误解。
  • 教育与在线学习 – 对视觉数学题或科学图表的自动评分系统可以实现更高的准确率,使大规模辅导平台更可信。
  • 快速原型 – 由于 UnAC 完全在推理阶段工作,团队只需在 LMM 调用外包装提示逻辑,即可实验复杂的多模态流水线(例如视觉代码审查、设计评审)。
  • 成本效率 – 通过将视觉范围缩小到少数显著区域,视觉转文本的 token 使用量下降,从而降低按 token 计费服务的 API 成本。

局限性与未来工作

  • Region Detector Dependency – 自适应提示的质量依赖于上游检测器;如果未能捕获关键区域,仍可能导致错误答案。
  • Prompt Length Overhead – 添加抽象和逐步检查会增加提示的长度,这可能在处理非常大的图像或长查询时触及某些大型多模态模型的 token 限制。
  • Automatic Decomposition – 目前的实验依赖于简单的思路链分割器;更复杂的程序化推理(例如符号规划器)可能进一步提升鲁棒性。
  • Generalization to Non‑Static Media – 该框架仅在静态图像上进行评估;将其扩展到视频或交互式 UI 截图是一个未解的方向。

总体而言,UnAC 表明巧妙的提示——尤其是当它能够适应视觉内容,将其抽象为文本,并逐步验证推理时——可以显著缩小当今大型多模态模型在感知与逻辑推理之间的差距。

作者

  • Yifan Wang
  • Yun Fu

论文信息

  • arXiv ID: 2605.03950v1
  • 类别: cs.CV
  • 发布时间: 2026年5月5日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »