[Paper] MessyKitchens:接触丰富的对象级 3D 场景重建
发布: (2026年3月18日 GMT+8 01:59)
7 分钟阅读
原文: arXiv
Source: arXiv - 2603.16868v1
Overview
MessyKitchens 论文解决了 3D 视觉中的一个长期瓶颈:在保持物理上合理的接触(无相互穿透)的前提下,重建杂乱的真实场景到单个物体的层级。通过发布高质量的凌乱厨房环境数据集和新的多物体重建模型,作者将单目 3D 场景理解推向更贴近机器人、AR/VR 和游戏开发需求的方向。
关键贡献
- MessyKitchens 数据集 – 1,200+ 实际厨房扫描,包含每个对象的 3D 网格、精确姿态和标注的接触图,远超以往基准在真实感和标注精度方面。
- 多对象解码器 (MOD) – 对 SAM‑3D 单对象管线的扩展,能够联合预测场景中所有对象的形状、姿态和接触约束。
- 物理可行性层 – 可微分的非穿透损失,在训练期间显式强制实现真实的对象接触。
- 全面评估 – 在三个公开数据集(包括 ScanNet 和 3RScan)上展示了 >30 % 的对象间穿透率降低,以及最高 15 % 的姿态/形状配准精度提升。
- 开源发布 – 数据集、训练代码和预训练的 MOD 模型均公开,可立即进行实验。
方法论
-
数据捕获与标注
- 使用单个 RGB 相机对厨房进行拍摄,同时手持 3D 扫描仪捕获密集点云。
- 半自动流水线将扫描结果与图像对齐,提取单个对象网格,并通过网格相交分析计算接触面。
-
基础架构(SAM‑3D)
- 基于 Transformer 的编码器接收单张 RGB 图像,并为每个检测到的对象区域生成潜在表示(使用预训练的 Mask‑RCNN 检测器)。
- 原始 SAM‑3D 解码器从其潜在代码重建单个对象的形状和姿态。
-
多对象解码器(MOD)
- 共享潜在空间:所有对象的潜在向量被拼接后送入交叉注意力模块,使对象之间能够“交流”。
- 接触感知头:除了形状和姿态头之外,MOD 还为每对对象预测二进制接触掩码。
- 物理损失:可微分的惩罚项抑制网格相交,并鼓励预测的接触与真实接触图相匹配。
-
训练与推理
- 模型在 MessyKitchens 数据集上端到端训练,使用多任务损失(形状、姿态、接触和物理合理性)。
- 推理时,单张 RGB 图像即可在 RTX 3080 GPU 上于 200 ms 以下完成完整的 3‑D 场景重建。
Source: …
结果与发现
| 数据集 | 姿态/形状 IoU ↑ | 平均渗透体积 ↓ |
|---|---|---|
| MessyKitchens (baseline SAM‑3D) | 0.62 | 0.018 m³ |
| MOD (ours) | 0.71 (+14 %) | 0.009 m³ (‑50 %) |
| ScanNet | 0.58 → 0.66 | 0.022 m³ → 0.011 m³ |
| 3RScan | 0.55 → 0.63 | 0.025 m³ → 0.012 m³ |
- 配准精度 在所有测试集上均有稳定提升,验证了联合推理有助于解决遮挡问题。
- 接触预测 达到平均 F1‑score 为 0.84,说明模型能够可靠地识别物体之间的接触位置。
- 运行时 仍保持实时,表明加入多物体推理并未牺牲速度。
Practical Implications
- 机器人与操作 – 机器人现在不仅可以推断物体的位置,还能判断它们之间的支撑关系,从而实现更安全的抓取规划和更好的场景重排。
- AR/VR 内容创作 – 开发者可以仅凭一张照片生成物理上合理的 3‑D 资产,显著缩短手动网格编辑所需的时间。
- 游戏引擎集成 – MOD 的接触图可以直接输入物理引擎(如 Unity、Unreal),自动生成符合真实接触的碰撞网格。
- 电子商务与虚拟布景 – 零售商可以从目录图片中重建杂乱的产品展示,让客户浏览逼真的 3‑D 房间布局。
局限性与未来工作
- 领域特定性 – 数据集聚焦于厨房环境;在高度结构化或户外场景上的表现尚未测试。
- 单视图歧义 – 极度严重的遮挡仍会导致形状幻觉;引入多视图或深度线索可能提升鲁棒性。
- 接触粒度 – 当前的接触掩码是二进制的;未来工作可以对摩擦、顺应性或动态力进行建模,以实现更丰富的物理仿真。
MessyKitchens 项目标志着向真正 接触感知 的 3‑D 场景重建迈出的重要一步,为构建感知驱动应用的开发者打开了新途径。开源发布确保社区能够立即在此基础上进行构建。
作者
- Junaid Ahmed Ansari
- Ran Ding
- Fabio Pizzati
- Ivan Laptev
论文信息
- arXiv ID: 2603.16868v1
- 分类: cs.CV, cs.AI, cs.RO
- 发表时间: 2026年3月17日
- PDF: 下载 PDF