【论文】ART: 关节式重建Transformer

发布: (2025年12月17日 GMT+8 02:35)
7 min read
原文: arXiv

Source: arXiv - 2512.14671v1

概述

本文提出了 ART(Articulated Reconstruction Transformer),一种前馈神经网络,能够仅凭少量在不同姿态下拍摄的 RGB 照片重建完整的可关节对象(例如椅子、机器人、动物)的 3‑D 模型。与以往需要昂贵优化循环或仅限单一对象类别的工作不同,ART 具备 类别无关 的特性,能够生成在物理上有意义的部件、纹理和关节参数,可直接导入到仿真或游戏引擎中使用。

关键贡献

  • 类别无关的基于部件的重建:在无需针对每个类别重新训练的情况下处理任何关节对象。
  • Transformer 驱动的部件槽学习:提出一种新颖的 Transformer 架构,将稀疏的多状态图像转换为固定数量的可学习“部件槽”。
  • 统一解码几何、纹理和关节:模型从每个槽中联合预测网格、UV 纹理图以及显式的关节参数(轴、限制、父子层级)。
  • 大规模部件级监督数据集:精心构建了一个包含合成与真实相结合的多样化数据集,提供部件几何和运动学的真实标签,支持稳健训练。
  • 领先的性能:在多个关节对象重建数据集上设立新基准,显著超越基于优化和前馈的基线方法。

方法论

  1. 输入表示 – 系统接收 N 张稀疏的 RGB 图像,这些图像是在不同的关节姿态下拍摄的同一对象(例如,椅子背靠打开与关闭的情况)。不需要深度信息或掩码。
  2. 特征提取 – 每张图像通过共享的 CNN 主干网络(例如 ResNet‑50)得到一组视觉 token。位置编码用于表示相机姿态和关节姿态索引。
  3. 部件‑槽 Transformer
    • 跨图像 Transformer 编码器 聚合所有图像的 token,使网络能够推理不同姿态之间的对应关系。
    • 编码器输出固定数量 K可学习部件槽(类似于 DETR 中的对象查询)。每个槽旨在捕获对象的一个刚性部件(例如,椅子腿)。
  4. 联合解码头 – 对每个槽,三个并行解码器预测:
    • 3‑D 几何 – 一个粗糙的有符号距离场(SDF),随后通过 marching cubes 上采样为网格。
    • 纹理 – 渲染到网格上的 UV 图。
    • 关节参数 – 关节类型、轴、限制以及父子关系,以简易的运动学树形式表达。
  5. 训练损失 – 监督包括每个部件的 SDF 损失、纹理 L1 损失、关节参数回归损失,以及一致性损失,后者强制相同的部件槽在所有输入姿态中解释同一刚性部件。

整个管线是全前向的;在现代 GPU 上推理只需几百毫秒。

结果与发现

数据集指标(数值越低越好)ART先前前馈先前优化
可动 ShapeNet(合成)Chamfer‑L2(毫米)1.83.42.9
真实世界可动对象(使用手机捕获)Pose‑aware IoU(%)78.261.570.1
仿真转移(导出到 Unity)运动学一致性(°)2.15.84.3
  • 几何保真度 相比最佳前馈基线提升约 45 %。
  • 纹理真实感(通过 LPIPS 测量)即使仅使用 RGB 输入,也与真实纹理持平。
  • 关节精度:关节轴线和限制在几度误差内恢复,可直接用于物理模拟器。
  • 速度:在 RTX 3080 上端到端推理约 0.25 秒/对象,而基于优化的流水线需要数分钟。

实际意义

  • 快速资产创建 – 游戏工作室和 AR/VR 开发者可以仅通过几张手机照片生成完整绑定的 3‑D 模型,大幅缩短手动建模时间。
  • 机器人仿真 – 工程师可以捕获真实硬件(例如机器人手臂、操作器),并立即获得可用于物理仿真的 URDF,促进仿真到真实的迁移。
  • 电子商务与虚拟试穿 – 在线零售商可以重建带活动部件的产品(可折叠椅子、行李箱),实现交互式 3‑D 预览,无需昂贵的 3‑D 扫描设备。
  • 用于维护的数字孪生 – 维护平台可以通过现场照片重建关节机械,实现远程检查和预测性分析。

因为输出包含显式的运动学树,这些模型可以 即插即用 于现有引擎(Unity、Unreal、ROS),无需额外的重新绑定。

限制与未来工作

  • 依赖多状态图像 – ART 至少需要两个不同的姿态;单一静态视图仍会导致关节恢复效果差。
  • 合成偏差 – 尽管训练集混合了合成和真实数据,极端光照或高度反射的表面仍会削弱纹理预测。
  • 固定部件槽数量 – 当前设计假设部件数量有已知的上限;部件众多且体积微小的对象可能会被错误合并。
  • 未来方向 作者提出: (1) 通过学习先验将模型扩展至单视图推断,(2) 融入深度或多视角视频流以提升保真度,(3) 动态槽分配以适应可变的部件数量。

作者

  • Zizhang Li
  • Cheng Zhang
  • Zhengqin Li
  • Henry Howard-Jenkins
  • Zhaoyang Lv
  • Chen Geng
  • Jiajun Wu
  • Richard Newcombe
  • Jakob Engel
  • Zhao Dong

论文信息

  • arXiv ID: 2512.14671v1
  • 类别: cs.CV
  • 发布日期: 2025年12月16日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »