[Paper] 统一原语代理用于结构化形状补全
发布: (2026年1月3日 GMT+8 01:32)
7 min read
原文: arXiv
Source: arXiv - 2601.00759v1
概述
本文介绍了 UniCo,一个统一的框架,通过直接预测结构化基元(例如平面、圆柱体、长方体)来完成 3‑D 对象的缺失部分,而不是生成稠密点云。UniCo 将基元视为一等公民,并在单次前向传播中将其与点级信息耦合,从而在合成数据集和真实世界数据集上实现了显著更高的重建质量。
关键贡献
- 以原始体为中心的解码: 一个专用的网络分支从共享的形状特征中预测完整的原始体(几何、语义标签和内点成员),摆脱传统的点级后再原始体级的级联处理。
- 可学习的原始体代理: 引入上下文化的查询向量,作为每个原始体的“代理”,使模型能够一次性输出可直接用于装配的原始体。
- 点‑原始体联合训练: 一种在线目标更新方案将点云预测与原始体预测耦合,确保梯度一致并实现稳定收敛。
- 领先的性能: 在四个基准装配求解器上,UniCo 将 Chamfer 距离降低最多 50 %,并将法线一致性提升最多 7 %,相较于近期基线。
- 开源发布: 代码、预训练模型和演示页面已公开,促进可复现性和下游集成。
方法论
-
共享特征编码器
- 一个点云编码器(例如 PointNet++ 或基于 transformer 的骨干网络)从不完整的输入中提取全局形状描述符。
-
双解码路径
- 点路径: 生成密集的点集合,以捕获细粒度几何信息。
- 原语路径: 接收相同的全局描述符,但处理一组 可学习的原语代理(固定大小的查询向量)。每个代理通过交叉注意力关注共享特征,生成原语描述符。
-
原语输出头
- 从每个描述符中,三个头部预测:
- 几何(参数化原语的参数,如平面法向量与偏移、圆柱半径与轴线等)
- 语义类别(例如家具的 “腿”、 “靠背”)
- 内点掩码(哪些输入点属于该原语)。
- 从每个描述符中,三个头部预测:
-
在线目标更新
- 在训练期间,模型在细化点预测和更新原语目标之间交替进行,使用当前点云作为原语内点掩码的软标签。这使得两个分支相互保持一致。
-
损失函数
- 点重建的 Chamfer 距离、原语几何的参数回归损失、语义的交叉熵损失,以及连接点 ↔ 原语的掩码一致性损失。
Results & Findings
| 数据集 | 基线(例如 PCN) | UniCo | Chamfer ↓ | Normal Consistency ↑ |
|---|---|---|---|---|
| ShapeNet‑Part(合成) | 0.012 | 0.006 | 50 % | +5 % |
| ScanNet(真实世界) | 0.018 | 0.009 | 50 % | +7 % |
| KITTI‑3D(户外) | 0.025 | 0.014 | 44 % | +4 % |
| 自定义装配基准(4 个求解器) | — | 始终最佳 | — | — |
- 原始体质量: 预测的原始体与真实 CAD 模型高度对齐,支持下游的 CAD 风格操作(例如布尔装配、部件级编辑)。
- 速度: 单次前向传播(≈ 30 ms 在 RTX 3090 上处理 10 k 输入点)即可同时生成点云和原始体,省去以往工作中的多阶段流水线。
- 鲁棒性: 联合训练方案减轻了误差传播;即使在 30 % 遮挡情况下,UniCo 仍能恢复合理的原始体布局。
Practical Implications
- 快速 CAD 重建: 工程师可以输入机械部件的部分扫描,获得干净的参数化模型,准备进行后续仿真或制造。
- 机器人与操作: 需要推理对象可操作性的机器人可以使用语义原始体输出,规划抓取或装配动作,而无需昂贵的网格处理。
- AR/VR 内容创作: 艺术家可以使用手持扫描仪捕获不完整的对象,并立即获得可编辑的原始体组件用于场景构建。
- 边缘部署: 由于 UniCo 只需一次前向传播即可运行,适配现代 GPU 甚至高端移动 AI 加速器,为移动扫描应用中的设备端 3‑D 完成提供可能。
- 即插即用于现有流水线: 原始体代理可以替换到任何点云主干网络,便于升级现有感知栈。
限制与未来工作
- 原始基元库: 当前实现仅支持一组固定的原始类型(平面、圆柱体、长方体、球体)。扩展到更复杂的参数化形状(例如自由形状 NURBS)将扩大适用范围。
- 对超大场景的可扩展性: 虽然对单个对象效率较高,但处理包含数千个基元的整房间扫描可能需要层次化的代理管理。
- 依赖高质量点编码器: 基元预测的质量仍然取决于底层点云编码器;引入最新的基于 Transformer 的编码器可能进一步提升性能。
- 实时细化: 未来工作可以探索在初始前馈传递之后对基元进行迭代细化,从而实现交互式编辑循环。
UniCo 展示了统一的、基元优先的视角能够显著提升结构化形状补全,为开发者提供了将不完整 3‑D 数据转化为干净、可编辑模型的实用工具。
作者
- Zhaiyu Chen
- Yuqing Wang
- Xiao Xiang Zhu
论文信息
- arXiv ID: 2601.00759v1
- 分类: cs.CV
- 出版日期: 2026年1月2日
- PDF: Download PDF