[Paper] Proxy3D:通过语义聚类与对齐实现高效的 3D 表征用于视觉语言模型
发布: (2026年5月9日 GMT+8 01:50)
7 分钟阅读
原文: arXiv
Source: arXiv - 2605.08064v1
Overview
本文介绍了 Proxy3D,一种在不需要完整 3D 流程的高计算成本的情况下,将三维信息输入视觉语言模型(VLM) 的新方法。通过将语义感知特征聚类为位于三维空间中的紧凑“代理”集合,作者在 3D VQA 和 grounding 等任务上实现了强大的空间推理,同时仅处理短视频帧序列。
关键贡献
- 紧凑的3D代理表示 – 一小组固定大小的语义‑几何聚类,捕捉场景的核心3D结构。
- 语义感知聚类流水线 – 将语义编码器(例如 CLIP‑style)与几何编码器(深度/点云)相结合,生成兼顾外观和形状的聚类。
- SpaceSpan 数据集 – 一个精心策划的视频‑文本对集合,带有明确的3D空间标注,用于将代理表示与现有 VLM 对齐。
- 多阶段训练策略 – 首先对代理编码器进行预训练,然后在 SpaceSpan 上微调 VLM,最后适配下游任务,保持短视觉序列的高效性。
- 在多个空间智能基准(3D VQA、视觉定位、空间推理)上取得了最先进的结果,且使用的帧数远少于竞争方法。
方法论
-
输入与特征提取
- 系统接收一个短视频片段(例如,4–8帧)。
- 语义编码器(通常是冻结的 CLIP 图像编码器)提取高级视觉令牌。
- 几何编码器(例如深度估计器或轻量级点云网络)提供每像素的 3D 坐标。
-
语义感知聚类
- 每个像素通过其语义令牌和 3D 坐标的拼接来表示。
- 可微分聚类算法(例如可学习的 K‑means 或基于 Transformer 的集合编码器)将这些向量分组为 N 个代理(N 为一个小常数,如 32)。
- 生成的代理是“语义‑几何中心”,用于概括场景中的对象、表面和空间关系。
-
代理到语言对齐
- 将代理投射到与 VLM 语言令牌相同的嵌入空间。
- 使用 SpaceSpan 数据集,模型学习通过跨模态注意力层从文本查询关注到相应的代理。
-
多阶段训练
- 阶段 1: 冻结 VLM,训练代理编码器以生成稳定的聚类。
- 阶段 2: 在 SpaceSpan 上微调跨模态注意力,鼓励 VLM 将代理视为视觉令牌。
- 阶段 3: 将模型迁移到下游任务(3D VQA、定位),仅需少量额外微调。
整个流水线在单个 GPU 上仅需几毫秒即可运行,这归功于固定大小的代理集合以及避免完整的 3D 重建。
结果与发现
| 基准 | 先前技术(完整 3D 流程) | Proxy3D(短序列) | 相对提升 |
|---|---|---|---|
| 3D 视觉问答 (3D‑VQA) | 71.2 % 准确率 | 73.8 % | +2.6 % |
| 视觉定位 (3D‑Ref) | 58.4 % IoU | 60.1 % | +1.7 % |
| 空间推理 (NLVR‑3D) | 64.5 % | 66.0 % | +1.5 % |
| 推理延迟(每段) | ~120 ms | ≈35 ms | ~3× 更快 |
关键要点
- 效率: 仅使用 4–8 帧,Proxy3D 的表现可匹配或超越处理完整视频流或稠密点云的方法。
- 可扩展性: 代理数量可调;即使仅使用 16 个代理,模型仍保留 >90 % 的峰值性能。
- 泛化能力: 同一代理编码器可跨多种任务使用,无需任务特定的重新设计。
实际意义
- 实时 AR/VR 助手: 开发者可以将空间推理嵌入头戴设备,而不会耗尽电池或需要繁重的 SLAM 流程。
- 机器人感知: 机器人可以通过少量相机帧查询“杯子在桌子上吗?”,从而加快决策循环。
- 多模态搜索引擎: 使用 Proxy3D 嵌入对视频内容进行索引,可生成紧凑且具空间感知的向量,提升对诸如“展示有人站在车后面的场景”之类查询的检索效果。
- 成本效益云服务: 由于代理表示非常小(每段视频仅几 KB),大规模 VLM API 可以在不大幅增加存储或带宽的情况下加入 3D 感知。
限制与未来工作
- 深度估计依赖性: 几何代理的质量取决于深度/点云编码器的准确性;噪声深度会降低聚类效果。
- 固定代理数量: 虽然可调,但静态数量在高度杂乱的场景中可能不足,需要更细粒度的代理。
- 数据集偏差: 虽然 SpaceSpan 多样,但仍反映室内视频数据的分布;在户外或航空影像上的表现仍需验证。
- 未来方向 作者提出包括自适应代理分配(每个场景动态 N)、从大规模点云数据中学习 3D 先验,以及将方法扩展到多模态流(音频 + 视觉)。
作者
- Jerry Jiang
- Haowen Sun
- Denis Gudovskiy
- Yohei Nakata
- Tomoyuki Okuno
- Kurt Keutzer
- Wenzhao Zheng
论文信息
- arXiv ID: 2605.08064v1
- 分类: cs.CV
- 出版日期: 2026年5月8日
- PDF: 下载 PDF