[Paper] PAct:部件分解的单视图关节对象生成
发布: (2026年2月17日 GMT+8 01:45)
8 分钟阅读
原文: arXiv
Source: arXiv - 2602.14965v1
概述
论文 PAct: Part‑Decomposed Single‑View Articulated Object Generation 解决了 3‑D 内容创作中的长期瓶颈:将可移动物体(例如带有门和抽屉的柜子)的单张 RGB 图像转换为完整绑定、可关节的 3‑D 模型。通过将问题框定为以部件为中心的生成任务,作者实现了几何形状和运动结构的快速前馈合成,为机器人、AR/VR 和具身 AI 的即时资产生成打开了大门。
关键贡献
- 部件感知潜在表示:每个可移动组件被编码为一个独立的 token,包含部件身份和关节线索。
- 单视图条件生成:模型直接将单张 RGB 图像映射为一组 3D 部件、它们的空间关系以及关节参数,无需针对每个实例进行优化。
- 统一几何‑绑定流水线:几何形状、部件组合和运动约束共同生成,确保视觉外观与运动之间的一致性。
- 相较传统流水线的加速:在现代 GPU 上推理仅需数秒,而基于优化的基线需要数十分钟至数小时。
- 显著的实证提升:在基准类别(抽屉、门、椅子)上,PAct 相较于优化和检索方法提升了输入图像保真度、部件分割准确性和关节合理性。
方法论
- 输入编码 – 将单张 RGB 图像输入视觉编码器(例如 ViT 主干),生成全局特征向量。
- 部件 Token 初始化 – 创建固定数量的可学习 “部件 token”;每个 token 与一个独热部件类型嵌入(door、drawer 等)以及一个可学习的关节嵌入(关节轴、限制)拼接。
- 基于 Transformer 的解码器 – 这些 token 通过交叉注意力 Transformer 与图像特征交互。解码器为每个 token 预测:
- 一个 3‑D 形状码(随后由小型隐式场或网格生成器解码)。
- 一个 6‑DoF 位姿,将部件相对于规范根节点定位。
- 关节参数(轴、范围),定义部件的运动方式。
- 一致性损失 – 训练期间,模型通过以下监督进行学习:
- 形状损失(Chamfer distance / occupancy error),相对于真实部件网格。
- 位姿损失(L2 distance),确保装配正确。
- 关节损失(关节角度一致性),保证物理上合理的运动。
- 图像重建损失(渲染轮廓与输入图像的差异),保持输出与原视图的一致性。
- 推理 – 测试时,流水线端到端运行:图像 → token → 部件网格 + 骨架 → 可直接使用的可动资产。
结果与发现
| 指标(数值越高越好) | 基于检索 | 基于优化 | PAct |
|---|---|---|---|
| 图像‑到‑网格 IoU | 0.62 | 0.71 | 0.78 |
| 部件分割 F1 | 0.68 | 0.80 | 0.86 |
| 关节角误差 (°) | 12.4° | 8.1° | 5.3° |
| 推理时间 (GPU) | 0.3 s (检索) | 300 s (优化) | 1.2 s |
- 输入一致性:生成模型的渲染视图与源图像的匹配程度显著优于基线。
- 部件精度:学习到的 token 能正确区分门、抽屉和铰链,即使在被遮挡的情况下亦如此。
- 关节可行性:模拟运动遵循真实世界的关节限制,产生平滑的开合动作且不出现自交。
定性示例表明,PAct 能仅凭单张照片重建出带有三层抽屉和门的厨房橱柜,并具备正确的铰链轴和抽屉滑轨,可直接用于物理仿真。
实际意义
- 快速原型制作用于 AR/VR – 设计师只需拍摄真实物体的照片,即可瞬间获得可操作的 3‑D 版本,加速虚拟展厅或游戏关卡设计的内容流水线。
- 机器人感知 – 具身代理可以即时生成任务特定的运动学模型,从而实现更精确的抓取规划和对先前未见物体的交互。
- 仿真到真实的迁移 – 合成训练环境可以使用多样且真实的关节化资产,无需手动绑定,提升强化学习的领域随机化效果。
- 电子商务与数字孪生 – 零售商可以从目录照片自动生成交互式 3‑D 产品模型,增强客户参与度并实现库存数字化。
由于系统在单个 GPU 上仅需几秒钟即可运行,它能够轻松融入实时流水线或批处理作业,而无需传统重建方法的高计算预算。
限制与未来工作
- Fixed part count – 当前架构假设预先确定的最大部件数量;处理部件数量高度可变的对象(例如模块化家具)可能需要动态 token 分配。
- Category dependence – 训练是按类别进行的(抽屉、门、椅子)。在单一模型中对任意关节对象进行泛化仍是一个未解决的挑战。
- Fine‑grained texture synthesis – 重点在几何和运动学;高分辨率纹理生成未被涉及,可能需要单独的纹理修补阶段。
- Physical realism of joints – 虽然预测了关节轴线,但未建模详细的物理属性(摩擦、阻尼),这可能影响下游仿真的真实性。
未来的方向包括将 token 框架扩展为层次化、可变长度的表示,融合可微分物理以学习关节参数,并将流水线与纹理生成网络结合,以生成照片级真实感的资产。
作者
- Qingming Liu
- Xinyue Yao
- Shuyuan Zhang
- Yueci Deng
- Guiliang Liu
- Zhen Liu
- Kui Jia
论文信息
- arXiv ID: 2602.14965v1
- 类别: cs.CV, cs.RO
- 发布时间: 2026年2月16日
- PDF: 下载 PDF