[Paper] PAct：部件分解的单视图关节对象生成

发布: 3天前 (2026年2月17日 GMT+8 01:45)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.14965v1

概述

论文 PAct: Part‑Decomposed Single‑View Articulated Object Generation 解决了 3‑D 内容创作中的长期瓶颈：将可移动物体（例如带有门和抽屉的柜子）的单张 RGB 图像转换为完整绑定、可关节的 3‑D 模型。通过将问题框定为以部件为中心的生成任务，作者实现了几何形状和运动结构的快速前馈合成，为机器人、AR/VR 和具身 AI 的即时资产生成打开了大门。

关键贡献

部件感知潜在表示：每个可移动组件被编码为一个独立的 token，包含部件身份和关节线索。
单视图条件生成：模型直接将单张 RGB 图像映射为一组 3D 部件、它们的空间关系以及关节参数，无需针对每个实例进行优化。
统一几何‑绑定流水线：几何形状、部件组合和运动约束共同生成，确保视觉外观与运动之间的一致性。
相较传统流水线的加速：在现代 GPU 上推理仅需数秒，而基于优化的基线需要数十分钟至数小时。
显著的实证提升：在基准类别（抽屉、门、椅子）上，PAct 相较于优化和检索方法提升了输入图像保真度、部件分割准确性和关节合理性。

方法论

输入编码 – 将单张 RGB 图像输入视觉编码器（例如 ViT 主干），生成全局特征向量。
部件 Token 初始化 – 创建固定数量的可学习 “部件 token”；每个 token 与一个独热部件类型嵌入（door、drawer 等）以及一个可学习的关节嵌入（关节轴、限制）拼接。
基于 Transformer 的解码器 – 这些 token 通过交叉注意力 Transformer 与图像特征交互。解码器为每个 token 预测：
- 一个 3‑D 形状码（随后由小型隐式场或网格生成器解码）。
- 一个 6‑DoF 位姿，将部件相对于规范根节点定位。
- 关节参数（轴、范围），定义部件的运动方式。
一致性损失 – 训练期间，模型通过以下监督进行学习：
- 形状损失（Chamfer distance / occupancy error），相对于真实部件网格。
- 位姿损失（L2 distance），确保装配正确。
- 关节损失（关节角度一致性），保证物理上合理的运动。
- 图像重建损失（渲染轮廓与输入图像的差异），保持输出与原视图的一致性。
推理 – 测试时，流水线端到端运行：图像 → token → 部件网格 + 骨架 → 可直接使用的可动资产。

结果与发现

指标（数值越高越好）	基于检索	基于优化	PAct
图像‑到‑网格 IoU	0.62	0.71	0.78
部件分割 F1	0.68	0.80	0.86
关节角误差 (°)	12.4°	8.1°	5.3°
推理时间 (GPU)	0.3 s (检索)	300 s (优化)	1.2 s

输入一致性：生成模型的渲染视图与源图像的匹配程度显著优于基线。
部件精度：学习到的 token 能正确区分门、抽屉和铰链，即使在被遮挡的情况下亦如此。
关节可行性：模拟运动遵循真实世界的关节限制，产生平滑的开合动作且不出现自交。

定性示例表明，PAct 能仅凭单张照片重建出带有三层抽屉和门的厨房橱柜，并具备正确的铰链轴和抽屉滑轨，可直接用于物理仿真。

实际意义

快速原型制作用于 AR/VR – 设计师只需拍摄真实物体的照片，即可瞬间获得可操作的 3‑D 版本，加速虚拟展厅或游戏关卡设计的内容流水线。
机器人感知 – 具身代理可以即时生成任务特定的运动学模型，从而实现更精确的抓取规划和对先前未见物体的交互。
仿真到真实的迁移 – 合成训练环境可以使用多样且真实的关节化资产，无需手动绑定，提升强化学习的领域随机化效果。
电子商务与数字孪生 – 零售商可以从目录照片自动生成交互式 3‑D 产品模型，增强客户参与度并实现库存数字化。

由于系统在单个 GPU 上仅需几秒钟即可运行，它能够轻松融入实时流水线或批处理作业，而无需传统重建方法的高计算预算。

限制与未来工作

Fixed part count – 当前架构假设预先确定的最大部件数量；处理部件数量高度可变的对象（例如模块化家具）可能需要动态 token 分配。
Category dependence – 训练是按类别进行的（抽屉、门、椅子）。在单一模型中对任意关节对象进行泛化仍是一个未解决的挑战。
Fine‑grained texture synthesis – 重点在几何和运动学；高分辨率纹理生成未被涉及，可能需要单独的纹理修补阶段。
Physical realism of joints – 虽然预测了关节轴线，但未建模详细的物理属性（摩擦、阻尼），这可能影响下游仿真的真实性。

未来的方向包括将 token 框架扩展为层次化、可变长度的表示，融合可微分物理以学习关节参数，并将流水线与纹理生成网络结合，以生成照片级真实感的资产。

作者

Qingming Liu
Xinyue Yao
Shuyuan Zhang
Yueci Deng
Guiliang Liu
Zhen Liu
Kui Jia

论文信息

arXiv ID: 2602.14965v1
类别: cs.CV, cs.RO
发布时间: 2026年2月16日
PDF: 下载 PDF

[Paper] PAct：部件分解的单视图关节对象生成

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[论文] TeCoNeRV：利用时间一致性实现可压缩的视频神经表示

[Paper] 学习类人机器人末端执行器控制用于开放词汇视觉运动操作

[Paper] 显著性感知多路径思考：重新审视视觉-语言推理

[Paper] 在真实世界中学习情境感知