[Paper] 从透视描述预测相机姿态用于空间推理

发布: 3天前 (2026年2月6日 GMT+8 02:59)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.06041v1

（未提供需要翻译的文本。）

概述

本文解决了当今多模态大型语言模型（MLLM）的一项核心局限：对场景进行多摄像机角度的推理。通过显式建模摄像机姿态，作者使系统能够“换位思考”——即从多个二维图像理解三维环境，并能够从新的、语言指定的视点回答问题。其结果是一个快速、姿态感知的框架（CAMCUE），显著提升了准确性，同时将推理时间从分钟缩短到秒级。

关键贡献

CAMCUE 框架 – 一种姿态感知的多图像架构，将每个视角的相机姿态注入视觉标记，并在不同视角间进行融合。
自然语言姿态落地 – 一个模块，将自由形式的视角描述（例如 “站在桌子左侧”）转换为具体的相机姿态参数（旋转 + 平移）。
想象的目标视图合成 – 生成一个受姿态条件约束的 “心理图像”，即从查询视角看到的场景，用于下游推理模块。
CAMCUE‑DATA – 一个精心策划的数据集，包含 27,668 条训练实例和 508 条测试实例，提供多视角图像、精确相机姿态以及多样的自然语言视角描述，其中测试查询由人工标注。
效率提升 – 消除耗时的测试阶段检索匹配流程，将每例推理时间从约 256 秒降低至约 1.5 秒。

方法论

Pose‑augmented visual encoding – 每个输入图像由视觉编码器（例如 ViT）处理。关联的 6‑DoF 相机姿态（3‑D 旋转 + 平移）被嵌入并加到视觉 token 嵌入中，为模型的每个视角提供几何锚点。
Cross‑view fusion – 跨视角融合——基于 transformer 的融合层聚合所有源图像的姿态感知 token，使模型能够构建场景的统一 3‑D 表征。
Language‑to‑pose grounding – 语言到姿态的对齐——轻量级语言模型解析目标视点的自然语言描述，并预测相应的姿态向量。此步骤取代了以往工作中使用的暴力姿态搜索。
Target‑view imagination – 目标视角想象——利用预测的姿态，条件图像合成模块（例如扩散模型）从该视角渲染场景的“心理”视图。
Answer generation – 答案生成——将想象的视图和融合的场景表征输入多模态 LLM，生成对空间推理问题的最终答案（例如 “What is behind the red chair from the new viewpoint?”）。

所有组件在 CAMCUE‑DATA 上端到端训练，监督包括姿态预测（旋转/平移损失）和 QA 准确率。

结果与发现

指标	基线（无姿态）	CAMCUE（完整）
整体问答准确率	68.2 %	77.3 % (+9.06 %)
旋转预测（≤ 20°）	62 %	92 %
平移预测（≤ 0.5 m）	55 %	91 %
每个示例的推理时间	256.6 s	1.45 s

该模型能够可靠地将自由形式的视点语言转换为准确的姿态估计（在严格误差范围内超过90 %）。
通过合成想象中的视图，CAMCUE 在空间推理准确率上相较于无姿态基线实现了显著提升。
这种加速使交互式应用（例如 AR 助手）成为可能。

实际意义

AR/VR 内容创作 – 开发者只需提供少量捕获的图像和文字描述（“view from the balcony”），即可瞬间生成连贯的新视角，加速场景创作。
机器人与导航 – 配备摄像头的机器人能够理解诸如“look at the object from the opposite side of the hallway”之类的指令，而无需穷举姿态，从而实现更快速的规划。
3‑D 重建流水线 – 当仅有稀疏视图和自然语言提示时，CAMCUE 的姿态定位可作为传统 Structure‑from‑Motion 的轻量替代方案。
交互式 AI 助手 – 基于聊天的代理可以实时回答“what does the room look like from the kitchen window?”等问题，为智能家居仪表盘打开新的用户体验可能性。

限制与未来工作

数据集偏差 – CAMCUE‑DATA 以合成数据为主；在高度杂乱、真实世界的室内场景上的表现可能会下降。
姿态粒度 – 当前的姿态预测器只输出单一的 6‑DoF 估计；如何处理模糊或多模态的视角描述（例如 “在门附近的某处”）仍是未解之题。
视图合成的可扩展性 – 虽然推理速度快，但想象视图的生成仍依赖于扩散模型，对高分辨率输出会消耗大量显存。
向动态场景的扩展 – 该框架假设环境是静态的；引入时间线索以处理运动物体是一个有前景的方向。

结论：通过将显式几何与语言相结合，CAMCUE 展示了多模态模型能够高效地跨视点推理——这一步迈向真正具备空间感知能力的 AI 系统，使开发者能够将其即插即用到 AR、机器人以及交互式应用中。

作者

Xuejun Zhang
Aditi Tiwari
Zhenhailong Wang
Heng Ji

论文信息

arXiv ID: 2602.06041v1
类别: cs.CV
发布日期: 2026年2月5日
PDF: Download PDF

[Paper] 从透视描述预测相机姿态用于空间推理

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 伪可逆神经网络

[Paper] 共享 LoRA 子空间用于几乎严格的持续学习

[Paper] SwimBird: 在混合自回归 MLLMs 中引发可切换的推理模式

[论文] CommCP：通过基于LLM的通信与共形预测实现高效多智能体协同