[Paper] CoV:链式视角提示用于空间推理

发布: (2026年1月9日 GMT+8 01:59)
7 min read
原文: arXiv

Source: arXiv - 2601.05172v1

(请提供您希望翻译的具体文本内容,我将按照要求保留链接、格式和技术术语,仅将正文翻译为简体中文。)

概述

论文 “CoV: Chain‑of‑View Prompting for Spatial Reasoning” 解决了具身问答(EQA)中的一个核心瓶颈——当答案分布在 3‑D 场景的多个视角时,视觉‑语言模型(VLM)如何获取正确的视觉上下文。通过将静态 VLM 转变为能够决定下一步观察位置的 主动 观察者,作者在多个基准数据集上实现了显著、无需额外训练的提升。

关键贡献

  • Chain‑of‑View (CoV) 提示:一种测试时框架,使任何现成的 VLM 能够迭代地选择并移动到新的相机视角,模拟人类的“环视”行为。
  • 视角选择代理:一个轻量级模块,过滤掉冗余帧并挑选与问题对齐的初始“锚点”视角,从而减少不必要的计算。
  • 细粒度视角调整循环:将类似 LLM 的推理与离散相机动作交叉进行,从底层 3‑D 场景中获取新的观察,直至收集足够证据或步数预算耗尽。
  • 模型无关的性能提升:在四种主流 VLM(如 Qwen‑3‑VL‑Flash、Gemini‑2.5‑Flash)上,该方法在 OpenEQA 基准上平均提升 +11.56 % 的 LLM‑Match 准确率,单模型最高可达 +13.62 %
  • 可扩展的测试时预算:增加允许的视角切换次数可带来进一步提升(最高 +3.73 %),表明该方法可以在计算与准确率之间进行权衡。
  • 强大的跨数据集表现:在 ScanQA 和 SQA3D 上取得竞争性的 CIDEr 和精确匹配分数,且无需任何额外的训练数据。

方法论

  1. 输入 – 一个静态 VLM 接收来自 3‑D 环境的一组预渲染图像以及自然语言问题。
  2. 粗略视角选择 – 一个 视角选择代理(实现为简单的相似度评分器)评估所有可用帧,剔除重复并挑选最与问题相关的 “锚点” 视角。
  3. 迭代细粒度搜索 – 从锚点开始,系统进入循环:
    • VLM 处理当前视角和问题,并生成一段简短的推理片段。
    • 基于该片段,离散的 相机策略 决定下一步动作(例如,向左旋转、向前移动)。
    • 环境渲染新的视点,并将其反馈给 VLM。
    • 当满足置信度阈值或耗尽预定义的步数预算时,循环停止。
  4. 答案提取 – 最终的推理输出由 VLM 的语言头部解析,生成答案。

整个流水线 不需要梯度更新;它可以作为插件直接应用于任何现有的 VLM。

结果与发现

基准基线(无 CoV)+CoV(平均)最佳模型提升
OpenEQA (LLM‑Match)+11.56 %+13.62 % (Qwen‑3‑VL‑Flash)
OpenEQA (budget scaling)+2.51 % (average)+3.73 % (Gemini‑2.5‑Flash)
ScanQA (CIDEr / EM@1)116 CIDEr / 31.9 %
SQA3D (EM@1)51.1 %

关键要点

  • 改进在所有模型上保持一致,证实 CoV 真正是模型无关的。
  • 增加更多视角偏移会产生递减但仍为正的收益,表明在延迟与准确性之间存在实际的权衡。
  • 即使在开发期间未使用的数据集(ScanQA、SQA3D)上,CoV 也能提供强劲的绝对分数,暗示其具备良好的泛化能力。

实际意义

  • 机器人与 AR/VR – 构建具身代理(例如家用机器人、虚拟助理)的开发者可以将 CoV 接入其感知模块,让机器人在不重新训练视觉主干的情况下“环顾四周”以寻找缺失线索。
  • 零样本部署 – 由于 CoV 仅在推理阶段工作,企业只需添加视图选择和动作循环,即可提升现有基于 VLM 的产品的空间推理能力。
  • 成本效益的扩展 – 该方法让团队在计算预算与答案质量之间取得平衡——对延迟敏感的应用使用更紧的步数预算,对精度至关重要的场景(例如检查无人机)则使用更大的预算。
  • 跨模态研究 – 粗到细的提示范式可以启发音频、跨模态导航,甚至代码库探索等领域的类似主动查询技术,其中“视图”是抽象状态而非摄像机角度。

限制与未来工作

  • 离散动作空间 – 当前的相机策略使用一小套预定义的移动;更细致或连续的动作可以捕获更微妙的上下文,但这需要更复杂的规划。
  • 步数预算依赖 – 虽然性能随步数增加而提升,但实时系统可能受限于延迟;自适应预算策略仍是一个未解的问题。
  • 环境保真度 – 实验依赖于模拟的 3‑D 数据集;迁移到嘈杂的真实世界传感器流(例如深度噪声、光照变化)可能会暴露出鲁棒性缺口。
  • 视角选择启发式 – 锚点视角选择器是一个简单的相似度过滤器;通过强化学习等方式学习更细致的选择器可能进一步减少不必要的视角。

作者建议探索连续相机控制、自适应预算以及真实机器人实验作为下一步工作。

作者

  • Haoyu Zhao
  • Akide Liu
  • Zeyu Zhang
  • Weijie Wang
  • Feng Chen
  • Ruihan Zhu
  • Gholamreza Haffari
  • Bohan Zhuang

Paper Information

  • arXiv ID: 2601.05172v1
  • Categories: cs.CV, cs.AI
  • Published: 2026年1月8日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »