[Paper] 显著性感知多路径思考:重新审视视觉-语言推理

发布: (2026年2月19日 GMT+8 02:49)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.16702v1

(请提供您希望翻译的正文内容,我将为您翻译成简体中文,并保留原始的格式、Markdown 语法以及技术术语。)

概览

本文介绍了 Saliency‑Aware Multi‑Route Thinking (SAP),这是一种轻量级的推理时技术,使视觉语言模型(VLMs)在生成文本的过程中能够反复重新参考视觉输入。通过在高层次推理原则上操作,而非单个标记,SAP 稳定了视觉定位,抑制了对象幻觉,并在无需额外训练或数据的情况下实现并行的“思考路径”。

关键贡献

  • Saliency‑Aware Principle (SAP) 选择:一种模型无关、数据无关的控制器,引导 VLM 在生成过程中的关键点重新审视视觉证据。
  • 基于高层原则的控制:将引导信号从嘈杂的 token 级反馈转移到更稳健的推理“原则”,提升长文本生成的稳定性。
  • 多路推理:支持并行探索多种推理策略,与单一思路链(CoT)流水线相比降低延迟。
  • 无需额外训练:SAP 可直接与现有 VLM(如 BLIP‑2、LLaVA)配合使用,计算预算与标准逐 token 生成相当。
  • 实证收益:显著降低对象幻觉,并在基准 VQA 与视觉描述任务中实现更一致的 grounding。

方法论

  1. Principle Extraction – 在生成之前,模型会生成一份简短的高级推理原则列表(例如,“identify main objects”,“compare attributes”)。这些原则来源于提示词和初始的视觉编码。
  2. Saliency‑Aware Selection – 在自回归解码过程中,SAP 监控当前的 token 流,并根据当前激活的原则决定是否将视觉特征(或聚焦的视觉摘要)re‑inject 到语言模型的上下文中。此决定在原则层面做出,而非逐 token,从而平滑噪声反馈。
  3. Multi‑Route Parallelism – SAP 会生成多个独立的推理路线,每条路线遵循不同的原则顺序。所有路线共享同一视觉骨干网络,但保持各自的语言解码状态。在固定的 token 预算后,选择得分最高的路线(例如通过 likelihood 或下游指标)作为最终答案。
  4. Inference‑Only Pipeline – 整个过程是围绕任意预训练 VLM 的插件包装器。无需梯度更新、微调或额外数据集;唯一的开销是偶尔根据选定原则重新编码视觉特征。

结果与发现

基准基线(单路 CoT)SAP(单路)SAP(多路)
VQAv2(准确率)71.2 %73.5 % (+2.3 pp)74.8 % (+3.6 pp)
GQA(一致性)58.9 %62.1 % (+3.2 pp)63.4 % (+4.5 pp)
COCO Caption(CIDEr)119.3121.0 (+1.7)122.5 (+3.2)
对象幻觉(CHAIR) ↓22.4 %15.8 %14.9 %
  • 稳定性:在长推理链(>30 个 token)中,SAP 的原则层级控制防止了 grounding 错误的累积,产生更平滑的答案轨迹。
  • 延迟:多路 SAP 的完成速度是朴素 CoT 链的 1.8 倍,后者顺序展开相同的 token 预算,得益于并行化和对低质量路径的提前终止。
  • 预算效率:在相同的总 token 预算下,SAP 始终优于基线,表明更智能的 grounding 能胜过暴力的 token 生成。

实际影响

  • 在生产环境中降低幻觉:部署基于 VLM 的助手(例如视觉聊天机器人、电子商务图像搜索)可以集成 SAP,减少虚构对象,提高用户信任。
  • 实时应用更快响应:多路推理使得在对延迟敏感的边缘设备上(AR 眼镜、机器人)实现近实时视觉推理成为可能。
  • 即插即用升级:由于 SAP 无需重新训练,基于 BLIP‑2、LLaVA 或类似模型的现有服务只需加一个轻量推理包装即可采用,降低集成成本。
  • 更好的多模态提示工程:基于原则的视角鼓励开发者将提示视为“推理脚手架”,从而更容易设计复杂的视觉问答流水线(例如“先列出对象,然后比较大小”)。

限制与未来工作

  • 原则生成启发式:SAP 目前依赖简单的启发式方法来提取高级原则;更复杂、基于学习的原则生成器有望进一步提升性能。
  • 并行路径的可扩展性:虽然多路径推理加快了推理速度,但并发路径的数量受限于 GPU 内存;自适应路径剪枝是一个待探索的方向。
  • 领域迁移:本文在标准 VQA/Caption 数据集上进行评估;在高度专业化领域(医学影像、卫星影像)上的表现仍需验证。
  • 用户可控的定位:未来工作可以向终端用户开放原则选择,使其能够交互式地引导视觉定位,以满足自定义应用的需求。

作者

  • Mingjia Shi
  • Yinhan He
  • Yaochen Zhu
  • Jundong Li

论文信息

  • arXiv ID: 2602.16702v1
  • 分类: cs.CV
  • 出版日期: 2026年2月18日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »