[Paper] Proxy3D：通过语义聚类与对齐实现高效的 3D 表征用于视觉语言模型

发布: 3天前 (2026年5月9日 GMT+8 01:50)

7 分钟阅读

原文: arXiv

Source: arXiv - 2605.08064v1

Overview

本文介绍了 Proxy3D，一种在不需要完整 3D 流程的高计算成本的情况下，将三维信息输入视觉语言模型（VLM）的新方法。通过将语义感知特征聚类为位于三维空间中的紧凑“代理”集合，作者在 3D VQA 和 grounding 等任务上实现了强大的空间推理，同时仅处理短视频帧序列。

输入与特征提取
- 系统接收一个短视频片段（例如，4–8帧）。
- 语义编码器（通常是冻结的 CLIP 图像编码器）提取高级视觉令牌。
- 几何编码器（例如深度估计器或轻量级点云网络）提供每像素的 3D 坐标。
语义感知聚类
- 每个像素通过其语义令牌和 3D 坐标的拼接来表示。
- 可微分聚类算法（例如可学习的 K‑means 或基于 Transformer 的集合编码器）将这些向量分组为 N 个代理（N 为一个小常数，如 32）。
- 生成的代理是“语义‑几何中心”，用于概括场景中的对象、表面和空间关系。
代理到语言对齐
- 将代理投射到与 VLM 语言令牌相同的嵌入空间。
- 使用 SpaceSpan 数据集，模型学习通过跨模态注意力层从文本查询关注到相应的代理。
多阶段训练
- 阶段 1： 冻结 VLM，训练代理编码器以生成稳定的聚类。
- 阶段 2： 在 SpaceSpan 上微调跨模态注意力，鼓励 VLM 将代理视为视觉令牌。
- 阶段 3： 将模型迁移到下游任务（3D VQA、定位），仅需少量额外微调。

整个流水线在单个 GPU 上仅需几毫秒即可运行，这归功于固定大小的代理集合以及避免完整的 3D 重建。

基准	先前技术（完整 3D 流程）	Proxy3D（短序列）	相对提升
3D 视觉问答 (3D‑VQA)	71.2 % 准确率	73.8 %	+2.6 %
视觉定位 (3D‑Ref)	58.4 % IoU	60.1 %	+1.7 %
空间推理 (NLVR‑3D)	64.5 %	66.0 %	+1.5 %
推理延迟（每段）	~120 ms	≈35 ms	~3× 更快

关键要点

实时 AR/VR 助手： 开发者可以将空间推理嵌入头戴设备，而不会耗尽电池或需要繁重的 SLAM 流程。
机器人感知： 机器人可以通过少量相机帧查询“杯子在桌子上吗？”，从而加快决策循环。
多模态搜索引擎： 使用 Proxy3D 嵌入对视频内容进行索引，可生成紧凑且具空间感知的向量，提升对诸如“展示有人站在车后面的场景”之类查询的检索效果。
成本效益云服务： 由于代理表示非常小（每段视频仅几 KB），大规模 VLM API 可以在不大幅增加存储或带宽的情况下加入 3D 感知。