[论文] 基于语言与几何的稀疏体素表示用于整体场景理解
Source: arXiv - 2602.15734v1
概述
Guile Wu 等人的最新论文解决了 3‑D 场景理解中的一个长期难题:大多数开放词汇方法从 2‑D 视觉模型中提取语言线索,却忽视了这些线索应如何与场景的实际几何结构交互。通过在语言和几何两方面对稀疏体素表示进行锚定,作者们提供了一个统一模型,能够同时推理外观、语义和 3‑D 结构——从而实现更精确的场景重建和更丰富的语言驱动查询。
关键贡献
- 稀疏体素原语框架,包含四个互补字段:外观、密度、语义特征和置信度。
- 特征调制模块,紧密耦合外观、密度和语义特征,确保它们在学习过程中相互强化。
- 双重蒸馏管线:
- 语言蒸馏:将 2‑D 基础模型(例如 CLIP)的知识蒸馏到 3‑D 特征场。
- 几何蒸馏:利用深度相关性和模式一致性正则,从几何聚焦的基础模型进行蒸馏。
- 统一训练目标,在视觉保真度、语义对齐和几何正确性之间取得平衡。
- 最先进的结果在整体场景理解基准上取得, 在语义分割和重建质量上均超越以往方法。
方法论
-
稀疏体素表示 – 场景被划分为稀疏的三维体素网格。每个体素存储:
- 外观(RGB 颜色)
- 密度(体积渲染的占据率)
- 特征(高维语义嵌入)
- 置信度(体素信息的可靠程度)
-
特征调制 – 一个轻量级 MLP 将外观和密度值作为门控,调制语义特征向量。这促使三个字段共同演化,而不是相互孤立。
-
语言蒸馏 – 将场景图像输入预训练的二维视觉‑语言模型(例如 CLIP)。得到的文本对齐嵌入通过对比损失投射到体素特征场,教会体素携带开放词汇语义。
-
几何蒸馏 – 另一个几何基础模型提供深度图和表面法线线索。两个正则化项将体素衍生的深度(通过体积渲染)与教师深度对齐(深度相关性),并强制一致的局部模式(模式一致性),将几何先验转移到体素特征中。
-
训练循环 – 模型优化组合损失:渲染光度误差、语义对比损失、深度相关性损失、模式一致性损失,以及基于置信度加权的稀疏性项,用于剪除无关体素。
结果与发现
- 语义准确性 – 在 ScanNet‑200 基准上,该方法使平均 IoU 提升约 4%,超过之前最佳的开放词汇方法。
- 重建质量 – PSNR 和 Chamfer‑L1 距离显示几何保真度提升约 7%,表明与真实场景形状的对齐更紧密。
- 消融研究 – 去除几何蒸馏会导致语义 IoU 下降 2%,重建 PSNR 下降 1.5 dB,验证了几何与语言的协同效应。
- 效率 – 稀疏体素存储使内存使用与密集 NeRF 风格模型相当,同时实现更快的推理(单个 RTX 4090 上约提升 2 倍)。
Practical Implications
- 增强的 AR/VR 内容创作 – 开发者可以从普通的 RGB‑D 扫描中生成语义丰富的 3‑D 资产,实现自然语言搜索(“找红色的椅子”)直接在虚拟环境中。
- 机器人与自主导航 – 机器人可以使用语言查询地图(“最近的出口在哪里?”),同时仍然依赖精确的几何信息进行路径规划。
- 游戏引擎的资产管理 – 游戏工作室可以导入扫描的环境,立即获得高质量网格和可搜索的语义标签,减少手动标注时间。
- 跨模态检索 – 统一的特征场使得对场景进行多模态检索(例如,“显示所有面向东的有窗户的房间”)的索引变得简单。
局限性与未来工作
- 对 2‑D 教师质量的依赖 – 语义丰富度受到底层 2‑D 视觉‑语言模型能力的限制;罕见或特定领域的概念仍可能被遗漏。
- 稀疏体素分辨率的权衡 – 虽然节省内存,但非常细微的几何细节(例如细线)可能会丢失,除非对体素网格进行大幅上采样,这会影响速度。
- 真实世界评估受限 – 实验主要聚焦于室内基准;将方法扩展到大规模户外场景或动态环境仍是一个未解的挑战。
- 未来方向 – 作者建议结合时间线索用于动态场景,探索更大的多模态教师(例如视频‑语言模型),以及开发自适应体素稀疏性方案,在语义或几何需求高的区域分配更高分辨率。
作者
- Guile Wu
- David Huang
- Bingbing Liu
- Dongfeng Bai
论文信息
- arXiv ID: 2602.15734v1
- 类别: cs.CV
- 发表时间: 2026年2月17日
- PDF: 下载 PDF