[Paper] 用几何思考:Active Geometry Integration 用于空间推理
发布: (2026年2月6日 GMT+8 02:59)
7 分钟阅读
原文: arXiv
Source: arXiv - 2602.06037v1
概述
本文介绍了 GeoThinker,一个新框架,使多模态大型语言模型(MLLM)在需要时 主动 获取 3‑D 几何信息,而不是被动地将所有视觉和几何特征混合在一起。通过将几何设为可查询资源,GeoThinker 在基准测试上显著提升了空间推理能力,并在实际任务如具身 AI 和自动驾驶等方面展现出潜力。
关键贡献
- 主动几何检索:GeoThinker 并不将完整的 3‑D 表示一次性输入语言模型,而是让模型根据自身内部推理状态按需请求几何信息。
- 空间‑基础融合:在选定的视觉‑语言模型(VLM)层插入交叉注意力机制,将语义视觉线索与最相关的几何证据紧密耦合。
- 重要性门控:轻量级门控模块,使注意力倾向于当前任务所需的帧和结构,降低无关几何带来的噪声。
- 领先的性能:在 VSI‑Bench 上取得 72.6% 的得分,较以往方法有显著提升。
- 广泛适用性:在下游场景如具身指代(例如 “拿起桌子上的红色杯子”)和自动驾驶感知中表现出强大的泛化能力。
- 开源发布:代码和预训练模型已公开,可促进可复现性和进一步研究。
方法论
- 基础架构 – GeoThinker 基于标准的视觉‑语言 Transformer(例如 CLIP‑based VLM),该模型已经能够处理 2‑D 图像和文本。
- 3‑D 编码器 – 使用独立的 3‑D 主干网络(例如 PointNet++ 或基于体素的网络)从深度图或 LiDAR 扫描中提取每帧的几何嵌入。
- 通过交叉注意力进行主动检索
- 在少数策略性选择的 Transformer 层,模型的语义 token 向几何记忆发出 查询。
- 帧严格交叉注意力 确保每个视觉 token 只关注同一时间帧的几何信息,从而保持空间一致性。
- 重要性门控
- 一个小型门控网络根据当前查询预测每帧/结构的相关性得分。
- 这些得分调节注意力权重,有效地“提升”重要的几何信息并“抑制”其余部分。
- 训练 – 整个系统在空间推理数据集(例如 VSI‑Bench)上进行端到端微调,使用语言建模损失与几何感知监督(例如 3‑D grounding loss)的组合。
核心思想是将几何信息视为 动态 知识源,仅在语言模型的推理路径表明需要空间信息时进行查询。
Results & Findings
| 数据集 / 任务 | 指标(越高越好) | GeoThinker | 之前的最佳 |
|---|---|---|---|
| VSI‑Bench(空间问答) | Accuracy(准确率) | 72.6% | 66.1% |
| Embodied Referring(AI2‑Thor) | Success Rate(成功率) | 84.3% | 77.5% |
| Autonomous Driving(nuScenes) | mAP(3‑D 目标检测) | 48.7% | 44.2% |
- 语义‑几何对齐:消融实验表明,去除主动检索会导致性能下降约 5–7 分,验证了选择性几何集成的重要性。
- 效率:由于仅关注子集帧,推理开销相比普通 VLM 增加约 15 %,远低于全融合基线的 40 %+ 成本。
- 鲁棒性:即使 3‑D 输入的部分数据噪声大或缺失,GeoThinker 仍能保持高准确率,说明门控机制成功过滤了不良信号。
实际意义
- 机器人与具身 AI – 开发者可以将 GeoThinker 插入现有的指令跟随代理,使其拥有可靠的“对象位置”感知,从而在不重新设计整个感知堆栈的情况下提升抓取放置或导航任务。
- 自动驾驶汽车 – 主动几何查询可用于将计算资源聚焦在最相关的道路参与者上(例如,过马路的行人),从而可能降低安全关键流水线的延迟。
- AR/VR 内容创作 – 具备空间感知的聊天机器人或助手能够更高保真地回答用户关于场景三维布局的查询(例如,“沙发后面有什么?”),提升沉浸式体验。
- 开发者工作流 – 由于 GeoThinker 以模块化库的形式发布,团队可以在几乎不修改代码的情况下,将其与流行的 LLM API(OpenAI、Anthropic)和三维感知框架(Open3D、ROS)集成。
限制与未来工作
- 对准确3‑D输入的依赖 – 虽然门控机制可以缓解部分噪声,但系统仍假设深度或 LiDAR 数据相对干净;极端的传感器故障会导致性能下降。
- 对超长序列的可扩展性 – 当前设计在固定数量的 VLM 层上查询几何信息;处理超长视频流可能需要层次化或内存高效的扩展。
- 领域迁移 – GeoThinker 主要在室内和驾驶数据集上进行评估;适配航空或水下领域可能需要特定领域的几何编码器。
- 未来方向 – 作者建议探索 可学习的查询策略(例如基于强化学习的几何请求),并将框架扩展到包括音频或触觉线索的多模态推理。
作者
- 李浩源
- 曹启航
- 唐涛
- 项坤
- 郭子涵
- 韩建华
- 徐航
- 梁晓丹
论文信息
- arXiv ID: 2602.06037v1
- 分类: cs.CV
- 发布时间: 2026年2月5日
- PDF: 下载 PDF