[论文] 基于语言与几何的稀疏体素表示用于整体场景理解

发布: 3天前 (2026年2月18日 GMT+8 01:10)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.15734v1

概述

Guile Wu 等人的最新论文解决了 3‑D 场景理解中的一个长期难题：大多数开放词汇方法从 2‑D 视觉模型中提取语言线索，却忽视了这些线索应如何与场景的实际几何结构交互。通过在语言和几何两方面对稀疏体素表示进行锚定，作者们提供了一个统一模型，能够同时推理外观、语义和 3‑D 结构——从而实现更精确的场景重建和更丰富的语言驱动查询。

关键贡献

稀疏体素原语框架，包含四个互补字段：外观、密度、语义特征和置信度。
特征调制模块，紧密耦合外观、密度和语义特征，确保它们在学习过程中相互强化。
双重蒸馏管线：
- 语言蒸馏：将 2‑D 基础模型（例如 CLIP）的知识蒸馏到 3‑D 特征场。
- 几何蒸馏：利用深度相关性和模式一致性正则，从几何聚焦的基础模型进行蒸馏。
统一训练目标，在视觉保真度、语义对齐和几何正确性之间取得平衡。
最先进的结果在整体场景理解基准上取得，在语义分割和重建质量上均超越以往方法。

方法论

稀疏体素表示 – 场景被划分为稀疏的三维体素网格。每个体素存储：
- 外观（RGB 颜色）
- 密度（体积渲染的占据率）
- 特征（高维语义嵌入）
- 置信度（体素信息的可靠程度）
特征调制 – 一个轻量级 MLP 将外观和密度值作为门控，调制语义特征向量。这促使三个字段共同演化，而不是相互孤立。
语言蒸馏 – 将场景图像输入预训练的二维视觉‑语言模型（例如 CLIP）。得到的文本对齐嵌入通过对比损失投射到体素特征场，教会体素携带开放词汇语义。
几何蒸馏 – 另一个几何基础模型提供深度图和表面法线线索。两个正则化项将体素衍生的深度（通过体积渲染）与教师深度对齐（深度相关性），并强制一致的局部模式（模式一致性），将几何先验转移到体素特征中。
训练循环 – 模型优化组合损失：渲染光度误差、语义对比损失、深度相关性损失、模式一致性损失，以及基于置信度加权的稀疏性项，用于剪除无关体素。

结果与发现

语义准确性 – 在 ScanNet‑200 基准上，该方法使平均 IoU 提升约 4%，超过之前最佳的开放词汇方法。
重建质量 – PSNR 和 Chamfer‑L1 距离显示几何保真度提升约 7%，表明与真实场景形状的对齐更紧密。
消融研究 – 去除几何蒸馏会导致语义 IoU 下降 2%，重建 PSNR 下降 1.5 dB，验证了几何与语言的协同效应。
效率 – 稀疏体素存储使内存使用与密集 NeRF 风格模型相当，同时实现更快的推理（单个 RTX 4090 上约提升 2 倍）。

Practical Implications

增强的 AR/VR 内容创作 – 开发者可以从普通的 RGB‑D 扫描中生成语义丰富的 3‑D 资产，实现自然语言搜索（“找红色的椅子”）直接在虚拟环境中。
机器人与自主导航 – 机器人可以使用语言查询地图（“最近的出口在哪里？”），同时仍然依赖精确的几何信息进行路径规划。
游戏引擎的资产管理 – 游戏工作室可以导入扫描的环境，立即获得高质量网格和可搜索的语义标签，减少手动标注时间。
跨模态检索 – 统一的特征场使得对场景进行多模态检索（例如，“显示所有面向东的有窗户的房间”）的索引变得简单。

局限性与未来工作

对 2‑D 教师质量的依赖 – 语义丰富度受到底层 2‑D 视觉‑语言模型能力的限制；罕见或特定领域的概念仍可能被遗漏。
稀疏体素分辨率的权衡 – 虽然节省内存，但非常细微的几何细节（例如细线）可能会丢失，除非对体素网格进行大幅上采样，这会影响速度。
真实世界评估受限 – 实验主要聚焦于室内基准；将方法扩展到大规模户外场景或动态环境仍是一个未解的挑战。
未来方向 – 作者建议结合时间线索用于动态场景，探索更大的多模态教师（例如视频‑语言模型），以及开发自适应体素稀疏性方案，在语义或几何需求高的区域分配更高分辨率。

作者

Guile Wu
David Huang
Bingbing Liu
Dongfeng Bai

论文信息

arXiv ID: 2602.15734v1
类别: cs.CV
发表时间: 2026年2月17日
PDF: 下载 PDF

相关文章

阅读更多 »

[Paper] OpenEarthAgent：用于工具增强的地理空间代理的统一框架

近期在 multimodal reasoning 方面的进展使得能够解释 imagery、将其与 language 连接并执行 structured analytical tasks 的 agents 成为可能。Extend...

[Paper] 当视觉压倒语言：评估与缓解 VLAs 中的反事实失效

Vision-Language-Action models (VLAs) 旨在将语言指令与机器人控制相结合，但在实践中往往未能忠实地遵循语言。当 pr...

人类水平的 3D 形状感知源于多视图学习

人类可以从二维 visual inputs 中推断出物体的 three-dimensional 结构。对这种能力的建模一直是科学界的长期目标。

[Paper] 通过细粒度细节定位推动黑盒 LVLM 攻击的前沿

Black-box 对抗攻击在大型视觉语言模型（LVLMs）上具有挑战性，因为缺少梯度且多模态边界复杂。虽然先前的研究…