[Paper] Utonia:面向所有点云的单一编码器

发布: (2026年3月4日 GMT+8 02:59)
8 分钟阅读
原文: arXiv

Source: arXiv - 2603.03283v1

概述

论文 Utonia: Toward One Encoder for All Point Clouds 提出了一种单一的自监督 Transformer 编码器,能够处理来自截然不同来源的点云——卫星激光雷达、自动驾驶扫描、室内 RGB‑D 捕获、CAD 模型,甚至是从普通视频重建的点云。通过在这种异构混合数据上进行训练,作者展示了统一表示的出现,使得跨域迁移成为可能,并为机器人、视觉‑语言推理以及 AR/VR 等下游任务解锁了新能力。

关键贡献

  • 通用点云编码器 – 第一个在五个不同点云领域上联合训练的自监督 Transformer。
  • 跨域表示空间 – 表明单一潜在空间能够捕获来自不同来源的几何、密度和传感器特定先验。
  • 涌现的多模态行为 – Utonia 特征提升机器人操作的视觉‑语言‑动作策略,并增强视觉‑语言模型的空间推理能力。
  • 广泛的实证验证 – 在所有领域的标准感知基准(分类、分割、检测)上展示出一致的提升。
  • 开源基线 – 提供预训练权重和训练脚本,鼓励社区为稀疏 3D 数据构建“基础模型”。

方法论

  1. 数据聚合 – 作者收集了大规模、公开可用的点云数据集,涵盖:

    • 遥感 LiDAR(例如 SemanticKITTI、nuScenes)
    • 室外汽车 LiDAR
    • 室内 RGB‑D 序列(ScanNet、Matterport3D)
    • CAD 对象模型(ShapeNet)
    • 视频衍生的点云(基于深度感知的重建流水线)
  2. 自监督预训练 – 他们采用类似 BERT 的掩码点建模目标:随机掩码一部分点,transformer 必须重建这些点的坐标及其关联特征(颜色、强度)。同时使用对比损失,促进不同增强方式(随机旋转、抖动、子采样)之间的一致性。

  3. 统一的 transformer 架构 – 使用点云 transformer 主干(带相对位置编码的层次注意力)处理所有数据,仅加入极少的领域特定 token 嵌入(例如 “传感器类型” token),以保持灵活性。

  4. 微调协议 – 预训练完成后,编码器在下游任务上保持冻结或进行轻微微调:语义分割、目标检测以及多模态策略学习。

  5. 跨领域评估 – 将性能与领域特定基线以及不使用统一编码器的多任务训练进行比较。

结果与发现

领域任务基线(领域特定)Utonia(单编码器)Δ
户外 LiDAR语义分割(SemanticKITTI)71.2 mIoU73.8 mIoU+2.6
室内 RGB‑D目标检测(ScanNet)58.4 AP60.1 AP+1.7
CAD形状分类(ShapeNet)92.1 %93.4 %+1.3
视频衍生姿态估计78.5 %80.2 %+1.7
多模态(视觉‑语言‑动作)机器人积木堆叠(RLBench)45 % 成功率53 %+8
  • 跨域迁移: 在低资源领域(例如视频衍生点云)上进行微调,在高密度 LiDAR 上预训练后,可实现 >5 % 的绝对提升,证明共享编码器学习了可迁移的几何特征。
  • 涌现行为: 联合训练时,模型学会在不同领域对齐语义概念(例如,室内扫描中的“椅子”与航拍 LiDAR 中的“车辆”轮廓相匹配),无需显式监督。
  • 多模态增益: 将 Utonia 嵌入加入 CLIP 风格的视觉‑语言模型,可将空间推理基准(例如 3D 指代表达理解)的表现提升 3–4 %。

实际意义

  • 一站式 3D 骨干模型供开发者使用 – 为自动驾驶、室内映射或 AR 构建感知栈的团队,现在可以从单一预训练编码器开始,减少维护多个领域特定模型的需求。
  • 更快的机器人原型设计 – 编码器对几何的稳健理解可以直接嵌入强化学习流水线,降低收集涉及 3D 推理的操作任务数据的工作量。
  • 跨模态产品特性 – 将 LiDAR 与 RGB 视频融合的公司(例如混合现实头显)可以利用共享的潜在空间,更可靠地同步点云和图像特征。
  • 基础模型生态系统 – 通过开源权重,Utonia 可以成为“点云版 BERT”,让社区为诸如遗产遗址重建或无人机检测等细分应用进行微调。

限制与未来工作

  • 可扩展性至超大场景 – 当前的 Transformer 在处理数百万点时仍然困难;需要层次化或稀疏注意力机制来实现城市尺度的映射。
  • 领域偏差 – 尽管数据多样,但训练混合中 LiDAR 数据占主导;代表性不足的模态(例如来自智能手机的低分辨率深度)收益较小。
  • 多模态对齐受限 – 与语言模型的集成仍然浅层(嵌入拼接);更紧密的联合训练可能释放更丰富的 3D‑语言交互。
  • 作者提出的未来方向 包括:
    1. 使用合成和模拟点云扩展预训练语料库。
    2. 探索适配器式微调,以保持核心编码器冻结,适用于边缘部署。
    3. 研究显式建模视频衍生点云时间动态的自监督目标。

作者

  • Yujia Zhang
  • Xiaoyang Wu
  • Yunhan Yang
  • Xianzhe Fan
  • Han Li
  • Yuechen Zhang
  • Zehao Huang
  • Naiyan Wang
  • Hengshuang Zhao

论文信息

  • arXiv ID: 2603.03283v1
  • 分类: cs.CV
  • 出版时间: 2026年3月3日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »

[论文] SimpliHuMoN: 简化人体动作预测

Human motion prediction 将轨迹预测(trajectory forecasting)和人体姿态预测(human pose prediction)这两个任务结合在一起。针对这两个任务,已经开发了专门的模型……