【论文】ART: 关节式重建Transformer
发布: (2025年12月17日 GMT+8 02:35)
7 min read
原文: arXiv
Source: arXiv - 2512.14671v1
概述
本文提出了 ART(Articulated Reconstruction Transformer),一种前馈神经网络,能够仅凭少量在不同姿态下拍摄的 RGB 照片重建完整的可关节对象(例如椅子、机器人、动物)的 3‑D 模型。与以往需要昂贵优化循环或仅限单一对象类别的工作不同,ART 具备 类别无关 的特性,能够生成在物理上有意义的部件、纹理和关节参数,可直接导入到仿真或游戏引擎中使用。
关键贡献
- 类别无关的基于部件的重建:在无需针对每个类别重新训练的情况下处理任何关节对象。
- Transformer 驱动的部件槽学习:提出一种新颖的 Transformer 架构,将稀疏的多状态图像转换为固定数量的可学习“部件槽”。
- 统一解码几何、纹理和关节:模型从每个槽中联合预测网格、UV 纹理图以及显式的关节参数(轴、限制、父子层级)。
- 大规模部件级监督数据集:精心构建了一个包含合成与真实相结合的多样化数据集,提供部件几何和运动学的真实标签,支持稳健训练。
- 领先的性能:在多个关节对象重建数据集上设立新基准,显著超越基于优化和前馈的基线方法。
方法论
- 输入表示 – 系统接收 N 张稀疏的 RGB 图像,这些图像是在不同的关节姿态下拍摄的同一对象(例如,椅子背靠打开与关闭的情况)。不需要深度信息或掩码。
- 特征提取 – 每张图像通过共享的 CNN 主干网络(例如 ResNet‑50)得到一组视觉 token。位置编码用于表示相机姿态和关节姿态索引。
- 部件‑槽 Transformer –
- 跨图像 Transformer 编码器 聚合所有图像的 token,使网络能够推理不同姿态之间的对应关系。
- 编码器输出固定数量 K 的 可学习部件槽(类似于 DETR 中的对象查询)。每个槽旨在捕获对象的一个刚性部件(例如,椅子腿)。
- 联合解码头 – 对每个槽,三个并行解码器预测:
- 3‑D 几何 – 一个粗糙的有符号距离场(SDF),随后通过 marching cubes 上采样为网格。
- 纹理 – 渲染到网格上的 UV 图。
- 关节参数 – 关节类型、轴、限制以及父子关系,以简易的运动学树形式表达。
- 训练损失 – 监督包括每个部件的 SDF 损失、纹理 L1 损失、关节参数回归损失,以及一致性损失,后者强制相同的部件槽在所有输入姿态中解释同一刚性部件。
整个管线是全前向的;在现代 GPU 上推理只需几百毫秒。
结果与发现
| 数据集 | 指标(数值越低越好) | ART | 先前前馈 | 先前优化 |
|---|---|---|---|---|
| 可动 ShapeNet(合成) | Chamfer‑L2(毫米) | 1.8 | 3.4 | 2.9 |
| 真实世界可动对象(使用手机捕获) | Pose‑aware IoU(%) | 78.2 | 61.5 | 70.1 |
| 仿真转移(导出到 Unity) | 运动学一致性(°) | 2.1 | 5.8 | 4.3 |
- 几何保真度 相比最佳前馈基线提升约 45 %。
- 纹理真实感(通过 LPIPS 测量)即使仅使用 RGB 输入,也与真实纹理持平。
- 关节精度:关节轴线和限制在几度误差内恢复,可直接用于物理模拟器。
- 速度:在 RTX 3080 上端到端推理约 0.25 秒/对象,而基于优化的流水线需要数分钟。
实际意义
- 快速资产创建 – 游戏工作室和 AR/VR 开发者可以仅通过几张手机照片生成完整绑定的 3‑D 模型,大幅缩短手动建模时间。
- 机器人仿真 – 工程师可以捕获真实硬件(例如机器人手臂、操作器),并立即获得可用于物理仿真的 URDF,促进仿真到真实的迁移。
- 电子商务与虚拟试穿 – 在线零售商可以重建带活动部件的产品(可折叠椅子、行李箱),实现交互式 3‑D 预览,无需昂贵的 3‑D 扫描设备。
- 用于维护的数字孪生 – 维护平台可以通过现场照片重建关节机械,实现远程检查和预测性分析。
因为输出包含显式的运动学树,这些模型可以 即插即用 于现有引擎(Unity、Unreal、ROS),无需额外的重新绑定。
限制与未来工作
- 依赖多状态图像 – ART 至少需要两个不同的姿态;单一静态视图仍会导致关节恢复效果差。
- 合成偏差 – 尽管训练集混合了合成和真实数据,极端光照或高度反射的表面仍会削弱纹理预测。
- 固定部件槽数量 – 当前设计假设部件数量有已知的上限;部件众多且体积微小的对象可能会被错误合并。
- 未来方向 作者提出: (1) 通过学习先验将模型扩展至单视图推断,(2) 融入深度或多视角视频流以提升保真度,(3) 动态槽分配以适应可变的部件数量。
作者
- Zizhang Li
- Cheng Zhang
- Zhengqin Li
- Henry Howard-Jenkins
- Zhaoyang Lv
- Chen Geng
- Jiajun Wu
- Richard Newcombe
- Jakob Engel
- Zhao Dong
论文信息
- arXiv ID: 2512.14671v1
- 类别: cs.CV
- 发布日期: 2025年12月16日
- PDF: 下载 PDF