[Paper] 显著性感知多路径思考:重新审视视觉-语言推理
发布: (2026年2月19日 GMT+8 02:49)
7 分钟阅读
原文: arXiv
Source: arXiv - 2602.16702v1
(请提供您希望翻译的正文内容,我将为您翻译成简体中文,并保留原始的格式、Markdown 语法以及技术术语。)
概览
本文介绍了 Saliency‑Aware Multi‑Route Thinking (SAP),这是一种轻量级的推理时技术,使视觉语言模型(VLMs)在生成文本的过程中能够反复重新参考视觉输入。通过在高层次推理原则上操作,而非单个标记,SAP 稳定了视觉定位,抑制了对象幻觉,并在无需额外训练或数据的情况下实现并行的“思考路径”。
关键贡献
- Saliency‑Aware Principle (SAP) 选择:一种模型无关、数据无关的控制器,引导 VLM 在生成过程中的关键点重新审视视觉证据。
- 基于高层原则的控制:将引导信号从嘈杂的 token 级反馈转移到更稳健的推理“原则”,提升长文本生成的稳定性。
- 多路推理:支持并行探索多种推理策略,与单一思路链(CoT)流水线相比降低延迟。
- 无需额外训练:SAP 可直接与现有 VLM(如 BLIP‑2、LLaVA)配合使用,计算预算与标准逐 token 生成相当。
- 实证收益:显著降低对象幻觉,并在基准 VQA 与视觉描述任务中实现更一致的 grounding。
方法论
- Principle Extraction – 在生成之前,模型会生成一份简短的高级推理原则列表(例如,“identify main objects”,“compare attributes”)。这些原则来源于提示词和初始的视觉编码。
- Saliency‑Aware Selection – 在自回归解码过程中,SAP 监控当前的 token 流,并根据当前激活的原则决定是否将视觉特征(或聚焦的视觉摘要)re‑inject 到语言模型的上下文中。此决定在原则层面做出,而非逐 token,从而平滑噪声反馈。
- Multi‑Route Parallelism – SAP 会生成多个独立的推理路线,每条路线遵循不同的原则顺序。所有路线共享同一视觉骨干网络,但保持各自的语言解码状态。在固定的 token 预算后,选择得分最高的路线(例如通过 likelihood 或下游指标)作为最终答案。
- Inference‑Only Pipeline – 整个过程是围绕任意预训练 VLM 的插件包装器。无需梯度更新、微调或额外数据集;唯一的开销是偶尔根据选定原则重新编码视觉特征。
结果与发现
| 基准 | 基线(单路 CoT) | SAP(单路) | SAP(多路) |
|---|---|---|---|
| VQAv2(准确率) | 71.2 % | 73.5 % (+2.3 pp) | 74.8 % (+3.6 pp) |
| GQA(一致性) | 58.9 % | 62.1 % (+3.2 pp) | 63.4 % (+4.5 pp) |
| COCO Caption(CIDEr) | 119.3 | 121.0 (+1.7) | 122.5 (+3.2) |
| 对象幻觉(CHAIR) ↓ | 22.4 % | 15.8 % | 14.9 % |
- 稳定性:在长推理链(>30 个 token)中,SAP 的原则层级控制防止了 grounding 错误的累积,产生更平滑的答案轨迹。
- 延迟:多路 SAP 的完成速度是朴素 CoT 链的 1.8 倍,后者顺序展开相同的 token 预算,得益于并行化和对低质量路径的提前终止。
- 预算效率:在相同的总 token 预算下,SAP 始终优于基线,表明更智能的 grounding 能胜过暴力的 token 生成。
实际影响
- 在生产环境中降低幻觉:部署基于 VLM 的助手(例如视觉聊天机器人、电子商务图像搜索)可以集成 SAP,减少虚构对象,提高用户信任。
- 实时应用更快响应:多路推理使得在对延迟敏感的边缘设备上(AR 眼镜、机器人)实现近实时视觉推理成为可能。
- 即插即用升级:由于 SAP 无需重新训练,基于 BLIP‑2、LLaVA 或类似模型的现有服务只需加一个轻量推理包装即可采用,降低集成成本。
- 更好的多模态提示工程:基于原则的视角鼓励开发者将提示视为“推理脚手架”,从而更容易设计复杂的视觉问答流水线(例如“先列出对象,然后比较大小”)。
限制与未来工作
- 原则生成启发式:SAP 目前依赖简单的启发式方法来提取高级原则;更复杂、基于学习的原则生成器有望进一步提升性能。
- 并行路径的可扩展性:虽然多路径推理加快了推理速度,但并发路径的数量受限于 GPU 内存;自适应路径剪枝是一个待探索的方向。
- 领域迁移:本文在标准 VQA/Caption 数据集上进行评估;在高度专业化领域(医学影像、卫星影像)上的表现仍需验证。
- 用户可控的定位:未来工作可以向终端用户开放原则选择,使其能够交互式地引导视觉定位,以满足自定义应用的需求。
作者
- Mingjia Shi
- Yinhan He
- Yaochen Zhu
- Jundong Li
论文信息
- arXiv ID: 2602.16702v1
- 分类: cs.CV
- 出版日期: 2026年2月18日
- PDF: 下载 PDF