[Paper] SceneMaker:开放集 3D 场景生成,解耦去遮挡与姿态估计模型
发布: (2025年12月12日 GMT+8 02:59)
6 min read
原文: arXiv
Source: arXiv - 2512.10957v1
Overview
SceneMaker 引入了一种全新的方法,能够从单张图像生成 3‑D 场景,即使对象被严重遮挡或属于模型从未见过的类别。通过将“去遮挡”步骤与实际的 3‑D 重建分离,并使用统一的姿态估计网络,作者在具有挑战性的开放集合环境中实现了高保真几何和精确的对象姿态。
Key Contributions
- Decoupled pipeline – 将去遮挡(恢复隐藏部分)与 3‑D 对象生成分开,使每个模块能够独立优化。
- Open‑set de‑occlusion model – 在大规模图像数据集以及精心策划的去遮挡数据集上进行训练,为系统提供了对各种遮挡模式的鲁棒先验。
- Unified pose estimator – 将全局自注意力与局部交叉注意力相结合,联合推理对象的方向和位置,提升姿态精度。
- Open‑set 3‑D scene dataset – 新的基准,将室内场景与未见类别的对象混合,用于训练和评估姿态模型。
- State‑of‑the‑art results – 在标准室内数据集和新引入的开放集合场景上均展示了卓越的性能。
- Public release – 代码、预训练模型和数据集均公开,可用于可重复性研究和下游任务。
Methodology
- De‑occlusion module – 一个神经网络,接受单张 RGB 图像并预测每个可见对象的完整(未遮挡)外观。通过利用大规模图像级数据(如 COCO、OpenImages)和专门构建的去遮挡数据集,模型学习到通用的形状和纹理先验,能够迁移到未见的对象类别。
- 3‑D object generation – 去遮挡后,每个对象的完整轮廓和纹理被送入独立的生成模型(例如基于体素或网格的网络),重建其 3‑D 几何。由于去遮挡步骤已经提供了干净的视图,几何网络可以专注于形状合成。
- Unified pose estimation – 基于 transformer 的架构同时处理原始图像和去遮挡的输出。全局自注意力捕获场景级上下文(如房间布局),局部交叉注意力将每个对象的特征与图像对齐,以预测其 6‑DoF 姿态。
- Training regime – 三个组件首先分别预训练(去遮挡在图像数据上,几何在合成 3‑D 模型上,姿态在新的开放集合场景数据集上),随后进行端到端微调,以协调它们的输出。
Results & Findings
- Geometry quality – 在标准室内基准(如 ScanNet)上,SceneMaker 重建的网格相较于之前的联合去遮挡方法提升了 12 % 的 IoU。
- Pose accuracy – 统一姿态估计器将中位数旋转误差从 9.8° 降至 5.3°,平移误差从 6.4 cm 降至 3.7 cm(在开放集合场景测试集上)。
- Robustness to occlusion – 当对象被遮挡高达 70 % 时,解耦管线仍能恢复可辨识的几何,而整体式基线方法则会出现灾难性失败。
- Open‑set generalization – 对于训练期间未出现的类别,SceneMaker 仍保持 >80 % 的基线性能,验证了多样化去遮挡先验的优势。
Practical Implications
- AR/VR content creation – 开发者可以仅凭一张凌乱房间的照片生成完整的 3‑D 资产,显著减少手工建模时间。
- Robotics & navigation – 对未见对象的精确姿态估计提升了自主体在动态真实环境中的场景理解能力。
- E‑commerce & virtual try‑on – 零售商能够从用户上传的图片中重建产品,即使商品被其他物体部分遮挡。
- Game development – 室内场景的快速原型制作变得可行:设计师拍摄真实空间的照片,SceneMaker 即可生成带完整纹理的 3‑D 模型,直接用于游戏引擎。
Limitations & Future Work
- Dependence on high‑quality de‑occlusion data – 当遮挡模式与训练时看到的差异显著(例如极端半透明)时,系统性能会下降。
- Scalability to large outdoor scenes – 当前实验聚焦于室内环境,将管线扩展到城市尺度的户外场景仍是未解挑战。
- Real‑time constraints – 多阶段架构带来的延迟可能对交互式应用构成瓶颈,未来工作可探索模型压缩或联合推理优化。
SceneMaker 的开源发布邀请社区在此基础上进行创新,为在真实环境中实现更灵活、鲁棒的 3‑D 场景生成铺平道路。
Authors
- Yukai Shi
- Weiyu Li
- Zihao Wang
- Hongyang Li
- Xingyu Chen
- Ping Tan
- Lei Zhang
Paper Information
- arXiv ID: 2512.10957v1
- Categories: cs.CV, cs.AI
- Published: December 11, 2025
- PDF: Download PDF