[Paper] Proxy3D:通过语义聚类与对齐实现高效的 3D 表征用于视觉语言模型

发布: (2026年5月9日 GMT+8 01:50)
7 分钟阅读
原文: arXiv

Source: arXiv - 2605.08064v1

Overview

本文介绍了 Proxy3D,一种在不需要完整 3D 流程的高计算成本的情况下,将三维信息输入视觉语言模型(VLM) 的新方法。通过将语义感知特征聚类为位于三维空间中的紧凑“代理”集合,作者在 3D VQA 和 grounding 等任务上实现了强大的空间推理,同时仅处理短视频帧序列。

关键贡献

  • 紧凑的3D代理表示 – 一小组固定大小的语义‑几何聚类,捕捉场景的核心3D结构。
  • 语义感知聚类流水线 – 将语义编码器(例如 CLIP‑style)与几何编码器(深度/点云)相结合,生成兼顾外观和形状的聚类。
  • SpaceSpan 数据集 – 一个精心策划的视频‑文本对集合,带有明确的3D空间标注,用于将代理表示与现有 VLM 对齐。
  • 多阶段训练策略 – 首先对代理编码器进行预训练,然后在 SpaceSpan 上微调 VLM,最后适配下游任务,保持短视觉序列的高效性。
  • 在多个空间智能基准(3D VQA、视觉定位、空间推理)上取得了最先进的结果,且使用的帧数远少于竞争方法。

方法论

  1. 输入与特征提取

    • 系统接收一个短视频片段(例如,4–8帧)。
    • 语义编码器(通常是冻结的 CLIP 图像编码器)提取高级视觉令牌。
    • 几何编码器(例如深度估计器或轻量级点云网络)提供每像素的 3D 坐标。
  2. 语义感知聚类

    • 每个像素通过其语义令牌和 3D 坐标的拼接来表示。
    • 可微分聚类算法(例如可学习的 K‑means 或基于 Transformer 的集合编码器)将这些向量分组为 N 个代理(N 为一个小常数,如 32)。
    • 生成的代理是“语义‑几何中心”,用于概括场景中的对象、表面和空间关系。
  3. 代理到语言对齐

    • 将代理投射到与 VLM 语言令牌相同的嵌入空间。
    • 使用 SpaceSpan 数据集,模型学习通过跨模态注意力层从文本查询关注到相应的代理。
  4. 多阶段训练

    • 阶段 1: 冻结 VLM,训练代理编码器以生成稳定的聚类。
    • 阶段 2: 在 SpaceSpan 上微调跨模态注意力,鼓励 VLM 将代理视为视觉令牌。
    • 阶段 3: 将模型迁移到下游任务(3D VQA、定位),仅需少量额外微调。

整个流水线在单个 GPU 上仅需几毫秒即可运行,这归功于固定大小的代理集合以及避免完整的 3D 重建。

结果与发现

基准先前技术(完整 3D 流程)Proxy3D(短序列)相对提升
3D 视觉问答 (3D‑VQA)71.2 % 准确率73.8 %+2.6 %
视觉定位 (3D‑Ref)58.4 % IoU60.1 %+1.7 %
空间推理 (NLVR‑3D)64.5 %66.0 %+1.5 %
推理延迟(每段)~120 ms≈35 ms~3× 更快

关键要点

  • 效率: 仅使用 4–8 帧,Proxy3D 的表现可匹配或超越处理完整视频流或稠密点云的方法。
  • 可扩展性: 代理数量可调;即使仅使用 16 个代理,模型仍保留 >90 % 的峰值性能。
  • 泛化能力: 同一代理编码器可跨多种任务使用,无需任务特定的重新设计。

实际意义

  • 实时 AR/VR 助手: 开发者可以将空间推理嵌入头戴设备,而不会耗尽电池或需要繁重的 SLAM 流程。
  • 机器人感知: 机器人可以通过少量相机帧查询“杯子在桌子上吗?”,从而加快决策循环。
  • 多模态搜索引擎: 使用 Proxy3D 嵌入对视频内容进行索引,可生成紧凑且具空间感知的向量,提升对诸如“展示有人站在车后面的场景”之类查询的检索效果。
  • 成本效益云服务: 由于代理表示非常小(每段视频仅几 KB),大规模 VLM API 可以在不大幅增加存储或带宽的情况下加入 3D 感知。

限制与未来工作

  • 深度估计依赖性: 几何代理的质量取决于深度/点云编码器的准确性;噪声深度会降低聚类效果。
  • 固定代理数量: 虽然可调,但静态数量在高度杂乱的场景中可能不足,需要更细粒度的代理。
  • 数据集偏差: 虽然 SpaceSpan 多样,但仍反映室内视频数据的分布;在户外或航空影像上的表现仍需验证。
  • 未来方向 作者提出包括自适应代理分配(每个场景动态 N)、从大规模点云数据中学习 3D 先验,以及将方法扩展到多模态流(音频 + 视觉)。

作者

  • Jerry Jiang
  • Haowen Sun
  • Denis Gudovskiy
  • Yohei Nakata
  • Tomoyuki Okuno
  • Kurt Keutzer
  • Wenzhao Zheng

论文信息

  • arXiv ID: 2605.08064v1
  • 分类: cs.CV
  • 出版日期: 2026年5月8日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »