[Paper] 从透视描述预测相机姿态用于空间推理

发布: (2026年2月6日 GMT+8 02:59)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.06041v1

(未提供需要翻译的文本。)

概述

本文解决了当今多模态大型语言模型(MLLM)的一项核心局限:对场景进行多摄像机角度的推理。通过显式建模摄像机姿态,作者使系统能够“换位思考”——即从多个二维图像理解三维环境,并能够从新的、语言指定的视点回答问题。其结果是一个快速、姿态感知的框架(CAMCUE),显著提升了准确性,同时将推理时间从分钟缩短到秒级。

关键贡献

  • CAMCUE 框架 – 一种姿态感知的多图像架构,将每个视角的相机姿态注入视觉标记,并在不同视角间进行融合。
  • 自然语言姿态落地 – 一个模块,将自由形式的视角描述(例如 “站在桌子左侧”)转换为具体的相机姿态参数(旋转 + 平移)。
  • 想象的目标视图合成 – 生成一个受姿态条件约束的 “心理图像”,即从查询视角看到的场景,用于下游推理模块。
  • CAMCUE‑DATA – 一个精心策划的数据集,包含 27,668 条训练实例和 508 条测试实例,提供多视角图像、精确相机姿态以及多样的自然语言视角描述,其中测试查询由人工标注。
  • 效率提升 – 消除耗时的测试阶段检索匹配流程,将每例推理时间从约 256 秒降低至约 1.5 秒。

方法论

  1. Pose‑augmented visual encoding – 每个输入图像由视觉编码器(例如 ViT)处理。关联的 6‑DoF 相机姿态(3‑D 旋转 + 平移)被嵌入并加到视觉 token 嵌入中,为模型的每个视角提供几何锚点。
  2. Cross‑view fusion – 跨视角融合——基于 transformer 的融合层聚合所有源图像的姿态感知 token,使模型能够构建场景的统一 3‑D 表征。
  3. Language‑to‑pose grounding – 语言到姿态的对齐——轻量级语言模型解析目标视点的自然语言描述,并预测相应的姿态向量。此步骤取代了以往工作中使用的暴力姿态搜索。
  4. Target‑view imagination – 目标视角想象——利用预测的姿态,条件图像合成模块(例如扩散模型)从该视角渲染场景的“心理”视图。
  5. Answer generation – 答案生成——将想象的视图和融合的场景表征输入多模态 LLM,生成对空间推理问题的最终答案(例如 “What is behind the red chair from the new viewpoint?”)。

所有组件在 CAMCUE‑DATA 上端到端训练,监督包括姿态预测(旋转/平移损失)和 QA 准确率。

结果与发现

指标基线(无姿态)CAMCUE(完整)
整体问答准确率68.2 %77.3 % (+9.06 %)
旋转预测(≤ 20°)62 %92 %
平移预测(≤ 0.5 m)55 %91 %
每个示例的推理时间256.6 s1.45 s
  • 该模型能够可靠地将自由形式的视点语言转换为准确的姿态估计(在严格误差范围内超过90 %)。
  • 通过合成想象中的视图,CAMCUE 在空间推理准确率上相较于无姿态基线实现了显著提升。
  • 这种加速使交互式应用(例如 AR 助手)成为可能。

实际意义

  • AR/VR 内容创作 – 开发者只需提供少量捕获的图像和文字描述(“view from the balcony”),即可瞬间生成连贯的新视角,加速场景创作。
  • 机器人与导航 – 配备摄像头的机器人能够理解诸如“look at the object from the opposite side of the hallway”之类的指令,而无需穷举姿态,从而实现更快速的规划。
  • 3‑D 重建流水线 – 当仅有稀疏视图和自然语言提示时,CAMCUE 的姿态定位可作为传统 Structure‑from‑Motion 的轻量替代方案。
  • 交互式 AI 助手 – 基于聊天的代理可以实时回答“what does the room look like from the kitchen window?”等问题,为智能家居仪表盘打开新的用户体验可能性。

限制与未来工作

  • 数据集偏差 – CAMCUE‑DATA 以合成数据为主;在高度杂乱、真实世界的室内场景上的表现可能会下降。
  • 姿态粒度 – 当前的姿态预测器只输出单一的 6‑DoF 估计;如何处理模糊或多模态的视角描述(例如 “在门附近的某处”)仍是未解之题。
  • 视图合成的可扩展性 – 虽然推理速度快,但想象视图的生成仍依赖于扩散模型,对高分辨率输出会消耗大量显存。
  • 向动态场景的扩展 – 该框架假设环境是静态的;引入时间线索以处理运动物体是一个有前景的方向。

结论:通过将显式几何与语言相结合,CAMCUE 展示了多模态模型能够高效地跨视点推理——这一步迈向真正具备空间感知能力的 AI 系统,使开发者能够将其即插即用到 AR、机器人以及交互式应用中。

作者

  • Xuejun Zhang
  • Aditi Tiwari
  • Zhenhailong Wang
  • Heng Ji

论文信息

  • arXiv ID: 2602.06041v1
  • 类别: cs.CV
  • 发布日期: 2026年2月5日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »

[Paper] 伪可逆神经网络

Moore‑Penrose 伪逆 (PInv) 是线性系统的基本解。在本文中,我们提出了一种对 PInv 的自然推广……