[论文] 基于语言与几何的稀疏体素表示用于整体场景理解

发布: (2026年2月18日 GMT+8 01:10)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.15734v1

概述

Guile Wu 等人的最新论文解决了 3‑D 场景理解中的一个长期难题:大多数开放词汇方法从 2‑D 视觉模型中提取语言线索,却忽视了这些线索应如何与场景的实际几何结构交互。通过在语言和几何两方面对稀疏体素表示进行锚定,作者们提供了一个统一模型,能够同时推理外观、语义和 3‑D 结构——从而实现更精确的场景重建和更丰富的语言驱动查询。

关键贡献

  • 稀疏体素原语框架,包含四个互补字段:外观、密度、语义特征和置信度。
  • 特征调制模块,紧密耦合外观、密度和语义特征,确保它们在学习过程中相互强化。
  • 双重蒸馏管线
    • 语言蒸馏:将 2‑D 基础模型(例如 CLIP)的知识蒸馏到 3‑D 特征场。
    • 几何蒸馏:利用深度相关性和模式一致性正则,从几何聚焦的基础模型进行蒸馏。
  • 统一训练目标,在视觉保真度、语义对齐和几何正确性之间取得平衡。
  • 最先进的结果在整体场景理解基准上取得, 在语义分割和重建质量上均超越以往方法。

方法论

  1. 稀疏体素表示 – 场景被划分为稀疏的三维体素网格。每个体素存储:

    • 外观(RGB 颜色)
    • 密度(体积渲染的占据率)
    • 特征(高维语义嵌入)
    • 置信度(体素信息的可靠程度)
  2. 特征调制 – 一个轻量级 MLP 将外观和密度值作为门控,调制语义特征向量。这促使三个字段共同演化,而不是相互孤立。

  3. 语言蒸馏 – 将场景图像输入预训练的二维视觉‑语言模型(例如 CLIP)。得到的文本对齐嵌入通过对比损失投射到体素特征场,教会体素携带开放词汇语义。

  4. 几何蒸馏 – 另一个几何基础模型提供深度图和表面法线线索。两个正则化项将体素衍生的深度(通过体积渲染)与教师深度对齐(深度相关性),并强制一致的局部模式(模式一致性),将几何先验转移到体素特征中。

  5. 训练循环 – 模型优化组合损失:渲染光度误差、语义对比损失、深度相关性损失、模式一致性损失,以及基于置信度加权的稀疏性项,用于剪除无关体素。

结果与发现

  • 语义准确性 – 在 ScanNet‑200 基准上,该方法使平均 IoU 提升约 4%,超过之前最佳的开放词汇方法。
  • 重建质量 – PSNR 和 Chamfer‑L1 距离显示几何保真度提升约 7%,表明与真实场景形状的对齐更紧密。
  • 消融研究 – 去除几何蒸馏会导致语义 IoU 下降 2%,重建 PSNR 下降 1.5 dB,验证了几何与语言的协同效应。
  • 效率 – 稀疏体素存储使内存使用与密集 NeRF 风格模型相当,同时实现更快的推理(单个 RTX 4090 上约提升 2 倍)。

Practical Implications

  • 增强的 AR/VR 内容创作 – 开发者可以从普通的 RGB‑D 扫描中生成语义丰富的 3‑D 资产,实现自然语言搜索(“找红色的椅子”)直接在虚拟环境中。
  • 机器人与自主导航 – 机器人可以使用语言查询地图(“最近的出口在哪里?”),同时仍然依赖精确的几何信息进行路径规划。
  • 游戏引擎的资产管理 – 游戏工作室可以导入扫描的环境,立即获得高质量网格和可搜索的语义标签,减少手动标注时间。
  • 跨模态检索 – 统一的特征场使得对场景进行多模态检索(例如,“显示所有面向东的有窗户的房间”)的索引变得简单。

局限性与未来工作

  • 对 2‑D 教师质量的依赖 – 语义丰富度受到底层 2‑D 视觉‑语言模型能力的限制;罕见或特定领域的概念仍可能被遗漏。
  • 稀疏体素分辨率的权衡 – 虽然节省内存,但非常细微的几何细节(例如细线)可能会丢失,除非对体素网格进行大幅上采样,这会影响速度。
  • 真实世界评估受限 – 实验主要聚焦于室内基准;将方法扩展到大规模户外场景或动态环境仍是一个未解的挑战。
  • 未来方向 – 作者建议结合时间线索用于动态场景,探索更大的多模态教师(例如视频‑语言模型),以及开发自适应体素稀疏性方案,在语义或几何需求高的区域分配更高分辨率。

作者

  • Guile Wu
  • David Huang
  • Bingbing Liu
  • Dongfeng Bai

论文信息

  • arXiv ID: 2602.15734v1
  • 类别: cs.CV
  • 发表时间: 2026年2月17日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »