[Paper] Lang3D-XL: 语言嵌入的 3D 高斯用于大规模场景
发布: (2025年12月9日 GMT+8 02:39)
7 min read
原文: arXiv
Source: arXiv - 2512.07807v1
概览
论文 Lang3D‑XL 解决了为 3D 场景表示添加内置 “语言” 层的问题,使几何与语义紧密耦合。通过将低维语义特征直接嵌入 3D 高斯 splat 模型,作者实现了在大规模真实环境上的自然语言查询和编辑,同时保持内存和运行时成本可控。
主要贡献
- 3D 高斯的语义瓶颈 – 为每个高斯引入超低维语义向量,与以往特征蒸馏流水线相比大幅降低内存占用。
- 多分辨率哈希编码器 – 对瓶颈特征进行渲染并通过快速的哈希编码器处理,能够在不爆炸 GPU 使用的情况下扩展到城市规模场景。
- 衰减下采样模块 – 一种新颖的下采样块,保持跨分辨率的语义一致性,缓解 2D 派生监督常见的错位问题。
- 语义对齐正则化套件 – 结合对比、一致性和稀疏性损失,使学习到的语言场保持对真实 2D 特征的忠实。
- HolyScenes 上的最先进结果 – 在大规模、野外数据集上展示了更高的检索精度、更加出色的语言引导编辑,并相较最强基线实现最高 3 倍加速。
方法论
- 基础 3D 表示 – 场景存储为一组 3D 高斯(位置、协方差、颜色)——这种格式已成为实时视图合成的流行选择。
- 语义瓶颈 – 每个高斯还携带一个小向量(例如 8‑16 维),用于编码 “该点的含义”(椅子、道路、标识等)。
- 渲染管线 – 当请求相机视角时,按常规光栅化高斯,同时将瓶颈向量与颜色一起投影。得到的 2D 特征图随后由 多分辨率哈希编码器(受 Instant‑NGP 启发)快速提升至更丰富的特征空间,以供下游任务使用。
- 衰减下采样 – 为在不牺牲内存的前提下训练高分辨率图像,作者对渲染的特征图进行下采样。下采样器会衰减高频语义信号,防止网络因激进的池化而学习到虚假的对齐。
- 损失与正则化 –
- 对比对齐:将渲染的语义图拉向对应的 CLIP 派生 2D 特征,同时将不相关区域推开。
- 一致性:强制同一 3D 点在不同视角下产生相似的语义。
- 稀疏性:鼓励大多数瓶颈维度保持接近零,使表示保持紧凑。
训练过程端到端进行:高斯参数、瓶颈向量和哈希编码器权重全部共同更新。
结果与发现
| 指标(HolyScenes) | Lang3D‑XL | 先前蒸馏方法(如 3D‑CLIP) |
|---|---|---|
| 语言引导检索 @1 | 68.2 % | 54.7 % |
| 零样本分割 IoU | 41.5 % | 33.2 % |
| GPU 内存(每场景) | ≈2 GB | ≈6 GB |
| 推理时间(1080 Ti) | ≈120 ms / 视图 | ≈350 ms / 视图 |
作者报告称,语义瓶颈将每个高斯的存储量降低了 >80 %,仍能捕获足够的信息用于下游语言任务。哈希编码器的常数时间查找消除了早期体素网格方法的立方级扩展,使 >100 M 高斯 的场景能够在单卡 GPU 上处理。
实际意义
- 交互式 3D 编辑 – 开发者可以构建工具,让用户说 “把红色沙发换成蓝色的”,系统直接修改相关高斯,无需额外的分割流水线。
- 大地图语义搜索 – 自动驾驶系统可直接在地图表示上查询 “在 200 m 内找到所有人行横道”,省去点云到图像的昂贵转换。
- 多模态 AR/VR 体验 – 实时语言驱动的对象放置或描述在消费级硬件上变得可行,开启更丰富的叙事和训练仿真。
- 降低基础设施成本 – 由于瓶颈极小且哈希编码器轻量,云服务可以以远低于以往方法的存储和 GPU 预算托管城市尺度的 3D 资产。
局限性与未来工作
- 语义粒度 – 超低维瓶颈在细粒度类别(如 “橡树” 与 “松树”)上可能表现不足,需要额外监督。
- 依赖 2D 预训练特征 – 对齐质量受 CLIP‑类教师模型的偏差或盲点影响,缺陷会传递到 3D 场景。
- 动态场景 – 当前管线假设几何静止,扩展到运动物体或时变语义仍是未解挑战。
- 超大规模可扩展性 – 虽然 HolyScenes 已相当大,但真正的洲际级重建(数十亿高斯)仍可能触及内存上限,提示未来需研究层次化或流式表示。
总体而言,Lang3D‑XL 证明了将语言直接嵌入紧凑的 3D 高斯框架不仅可行,而且在真实世界大规模应用中具备实用性。希望在 3D 系统中加入自然语言交互的开发者应关注这一研究方向。
作者
- Shai Krakovsky
- Gal Fiebelman
- Sagie Benaim
- Hadar Averbuch-Elor
论文信息
- arXiv ID: 2512.07807v1
- 分类: cs.CV, cs.GR
- 发布日期: 2025 年 12 月 8 日
- PDF: Download PDF