[Paper] ShapeR:从随意捕获中实现稳健的条件3D形状生成
发布: (2026年1月17日 GMT+8 02:51)
7 min read
原文: arXiv
Source: arXiv - 2601.11514v1
概述
ShapeR 解决了许多 3D‑generation 流程仍然存在的一个缺口:它们假设扫描是完美捕获且干净的。然而,在实际环境中,开发者必须处理手持视频、噪声较大的 SLAM 轨迹以及部分遮挡的对象。本文提出了一种 conditional 3‑D shape generator,能够将普通、随意捕获的图像序列转换为精确的、metric‑scale meshes,为 on‑device AR、robotics 和 e‑commerce 等使用场景打开了大门。
关键贡献
- Casual‑capture pipeline – 将现成的视觉‑惯性 SLAM、3‑D 目标检测器和视觉‑语言模型相结合,以获取每个对象的稀疏几何、 多视角图像和文本描述。
- Rectified‑Flow Transformer – 一种新颖的 Transformer 架构,使用 rectified flow 进行训练,能够在异构模态(点、图像、文本)上进行条件化,并合成高保真度的度量网格。
- Robust training regime – 引入在线组合增强、混合对象级和场景级数据集的 curriculum,以及显式的背景‑杂乱处理,以弥合实验室数据与野外捕获之间的域差距。
- New benchmark – 提供一个包含 178 个对象、7 个场景的“野外”评估套件,附带真实几何真值,是首个公开的 casual‑capture 3‑D 生成测试平台。
- State‑of‑the‑art performance – 在 Chamfer 距离上比之前的最佳方法降低了 2.7 倍,显著提升了真实世界条件下的形状保真度。
Methodology
- Data acquisition – A user records a short video of a scene with a handheld device. An off‑the‑shelf visual‑inertial SLAM system (e.g., ORB‑SLAM3) supplies a sparse point cloud and camera poses. A 3‑D object detector (e.g., Mask‑RCNN‑3D) isolates each object’s region in 3‑D space.
- Multi‑modal conditioning
- Sparse geometry: The SLAM points that fall inside the detected bounding box become a rough point scaffold.
- Multi‑view images: Using the estimated poses, the system crops the corresponding RGB frames, giving the model several viewpoints.
- Textual caption: A vision‑language model (e.g., CLIP‑based captioner) generates a short description (“red wooden chair”) that provides semantic context.
- Rectified‑Flow Transformer – The three modalities are embedded separately (point‑net for geometry, CNN for images, transformer for text) and concatenated into a unified token sequence. The transformer is trained with a rectified flow objective, which learns a continuous diffusion‑like mapping from the conditioned inputs to a dense point cloud, then to a mesh via a standard surface reconstruction step.
- Robustness tricks
- Compositional augmentations: Randomly paste objects into new backgrounds, perturb point density, and simulate motion blur on the images during training.
- Curriculum learning: Start with clean, isolated object datasets, then gradually introduce cluttered scene data, letting the model adapt to increasing difficulty.
- Background handling: An auxiliary mask predictor separates foreground from background points, preventing the transformer from being confused by stray SLAM points.
结果与发现
| 指标(越低越好) | ShapeR | 先前的最先进方法(例如 NeuralRecon‑Cond) |
|---|---|---|
| Chamfer 距离(×10⁻³) | 1.8 | 4.9 |
| F‑score @ 1 mm | 0.71 | 0.44 |
| 推理时间(GPU) | 0.42 s | 0.68 s |
- 定量:ShapeR 将 Chamfer 距离降低了 2.7×,并显著提升了 F‑score,验证了更紧凑的几何恢复。
- 定性:视觉示例展示了对细长腿部、反射表面以及部分遮挡部位的忠实重建,而先前的方法要么将其平滑掉,要么完全遗漏。
- 消融:去除任意模态(例如去掉标题)会导致性能下降约 15 %,凸显几何 + 视觉 + 语言的协同作用。
- 泛化能力:在新的“真实场景”基准上,ShapeR 保持了 >80 % 的实验室测试性能,而基线方法下降至 50 % 以下。
实际意义
- AR/VR 内容创作 – 开发者可以让用户使用手机扫描物体,立即获取度量网格,以放置在混合现实场景中,无需昂贵的转盘或 LiDAR。
- 机器人感知 – 服务机器人可以即时构建可操作物体的数据库,利用生成的网格进行抓取规划和碰撞检测。
- 电子商务与数字孪生 – 零售商可以从快速视频演示中生成产品模型,显著降低 3‑D 目录创建的时间和成本。
- 边缘部署 – 由于该流水线依赖于已在移动设备上普遍使用的轻量级 SLAM 和检测模块,繁重的计算(transformer)可以在普通 GPU,甚至现代移动‑AI 加速器上运行,只需进行轻微的延迟调优。
限制与未来工作
- 稀疏点依赖 – 极低纹理的场景仍然产生不足的 SLAM 点,导致重建粗糙。
- 字幕质量 – 该方法假设语言模型提供准确的物体名称;模糊或错误的字幕可能误导形状先验。
- 大场景扩展 – 当前实验聚焦于单个物体;将该方法扩展到重建包含众多交互物体的整个房间仍是一个未解决的挑战。
- 实时约束 – 虽然在桌面 GPU 上推理时间低于一秒,但在移动硬件上实现真正的实时性能仍需进行模型剪枝或蒸馏。
作者建议探索自监督点密集化、更紧密的语言落地集成以及层次化场景级生成作为下一步。
作者
- Yawar Siddiqui
- Duncan Frost
- Samir Aroudj
- Armen Avetisyan
- Henry Howard-Jenkins
- Daniel DeTone
- Pierre Moulon
- Qirui Wu
- Zhengqin Li
- Julian Straub
- Richard Newcombe
- Jakob Engel
论文信息
- arXiv ID: 2601.11514v1
- Categories: cs.CV, cs.LG
- Published: 2026年1月16日
- PDF: Download PDF