[Paper] PAct:部件分解的单视图关节对象生成

发布: (2026年2月17日 GMT+8 01:45)
8 分钟阅读
原文: arXiv

Source: arXiv - 2602.14965v1

概述

论文 PAct: Part‑Decomposed Single‑View Articulated Object Generation 解决了 3‑D 内容创作中的长期瓶颈:将可移动物体(例如带有门和抽屉的柜子)的单张 RGB 图像转换为完整绑定、可关节的 3‑D 模型。通过将问题框定为以部件为中心的生成任务,作者实现了几何形状和运动结构的快速前馈合成,为机器人、AR/VR 和具身 AI 的即时资产生成打开了大门。

关键贡献

  • 部件感知潜在表示:每个可移动组件被编码为一个独立的 token,包含部件身份和关节线索。
  • 单视图条件生成:模型直接将单张 RGB 图像映射为一组 3D 部件、它们的空间关系以及关节参数,无需针对每个实例进行优化。
  • 统一几何‑绑定流水线:几何形状、部件组合和运动约束共同生成,确保视觉外观与运动之间的一致性。
  • 相较传统流水线的加速:在现代 GPU 上推理仅需数秒,而基于优化的基线需要数十分钟至数小时。
  • 显著的实证提升:在基准类别(抽屉、门、椅子)上,PAct 相较于优化和检索方法提升了输入图像保真度、部件分割准确性和关节合理性。

方法论

  1. 输入编码 – 将单张 RGB 图像输入视觉编码器(例如 ViT 主干),生成全局特征向量。
  2. 部件 Token 初始化 – 创建固定数量的可学习 “部件 token”;每个 token 与一个独热部件类型嵌入(door、drawer 等)以及一个可学习的关节嵌入(关节轴、限制)拼接。
  3. 基于 Transformer 的解码器 – 这些 token 通过交叉注意力 Transformer 与图像特征交互。解码器为每个 token 预测:
    • 一个 3‑D 形状码(随后由小型隐式场或网格生成器解码)。
    • 一个 6‑DoF 位姿,将部件相对于规范根节点定位。
    • 关节参数(轴、范围),定义部件的运动方式。
  4. 一致性损失 – 训练期间,模型通过以下监督进行学习:
    • 形状损失(Chamfer distance / occupancy error),相对于真实部件网格。
    • 位姿损失(L2 distance),确保装配正确。
    • 关节损失(关节角度一致性),保证物理上合理的运动。
    • 图像重建损失(渲染轮廓与输入图像的差异),保持输出与原视图的一致性。
  5. 推理 – 测试时,流水线端到端运行:图像 → token → 部件网格 + 骨架 → 可直接使用的可动资产。

结果与发现

指标(数值越高越好)基于检索基于优化PAct
图像‑到‑网格 IoU0.620.710.78
部件分割 F10.680.800.86
关节角误差 (°)12.4°8.1°5.3°
推理时间 (GPU)0.3 s (检索)300 s (优化)1.2 s
  • 输入一致性:生成模型的渲染视图与源图像的匹配程度显著优于基线。
  • 部件精度:学习到的 token 能正确区分门、抽屉和铰链,即使在被遮挡的情况下亦如此。
  • 关节可行性:模拟运动遵循真实世界的关节限制,产生平滑的开合动作且不出现自交。

定性示例表明,PAct 能仅凭单张照片重建出带有三层抽屉和门的厨房橱柜,并具备正确的铰链轴和抽屉滑轨,可直接用于物理仿真。

实际意义

  • 快速原型制作用于 AR/VR – 设计师只需拍摄真实物体的照片,即可瞬间获得可操作的 3‑D 版本,加速虚拟展厅或游戏关卡设计的内容流水线。
  • 机器人感知 – 具身代理可以即时生成任务特定的运动学模型,从而实现更精确的抓取规划和对先前未见物体的交互。
  • 仿真到真实的迁移 – 合成训练环境可以使用多样且真实的关节化资产,无需手动绑定,提升强化学习的领域随机化效果。
  • 电子商务与数字孪生 – 零售商可以从目录照片自动生成交互式 3‑D 产品模型,增强客户参与度并实现库存数字化。

由于系统在单个 GPU 上仅需几秒钟即可运行,它能够轻松融入实时流水线或批处理作业,而无需传统重建方法的高计算预算。

限制与未来工作

  • Fixed part count – 当前架构假设预先确定的最大部件数量;处理部件数量高度可变的对象(例如模块化家具)可能需要动态 token 分配。
  • Category dependence – 训练是按类别进行的(抽屉、门、椅子)。在单一模型中对任意关节对象进行泛化仍是一个未解决的挑战。
  • Fine‑grained texture synthesis – 重点在几何和运动学;高分辨率纹理生成未被涉及,可能需要单独的纹理修补阶段。
  • Physical realism of joints – 虽然预测了关节轴线,但未建模详细的物理属性(摩擦、阻尼),这可能影响下游仿真的真实性。

未来的方向包括将 token 框架扩展为层次化、可变长度的表示,融合可微分物理以学习关节参数,并将流水线与纹理生成网络结合,以生成照片级真实感的资产。

作者

  • Qingming Liu
  • Xinyue Yao
  • Shuyuan Zhang
  • Yueci Deng
  • Guiliang Liu
  • Zhen Liu
  • Kui Jia

论文信息

  • arXiv ID: 2602.14965v1
  • 类别: cs.CV, cs.RO
  • 发布时间: 2026年2月16日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »