[Paper] GaMO:几何感知 多视角 Diffusion Outpainting 用于稀疏视角 3D 重建

发布: (2026年1月1日 GMT+8 02:59)
7 min read
原文: arXiv

Source: arXiv - 2512.25073v1

概览

GaMO(几何感知多视角外延绘制)解决了三维重建中的一个核心痛点:仅凭少量相机视角就构建精确模型。通过对现有图像进行“外延绘制”——扩展其视场而不是合成全新的视角——该方法在保持几何一致性的同时大幅扩大场景覆盖范围。作者展示了这种零‑shot 扩散方法在质量和速度上均优于之前的基于扩散的流水线,使得稀疏视角重建在实际项目中更加实用。

关键贡献

  • Multi‑view outpainting:将每个输入图像的可观测区域进行扩展,而不是生成新的相机姿态,从而保持跨视图的几何关系。
  • Geometry‑aware denoising:引入一种基于深度和相机几何信息条件的扩散去噪器,降低跨视图不一致性。
  • Zero‑shot operation:无需特定任务的训练;该框架可直接使用预训练的扩散模型。
  • Speed boost:推理速度提升约 25×,快于最先进的基于扩散的重建流水线(典型场景下不到 10 分钟)。
  • State‑of‑the‑art results:在 Replica 和 ScanNet++ 上针对 3、6、9 个输入视图设立了新的 PSNR 和 LPIPS 基准。

方法论

  1. 输入预处理 – 将稀疏的 RGB‑D 图像集合使用已知的相机位姿投影到共享的三维坐标系中。
  2. 外延遮罩生成 – 对每个视角,使用外围遮罩定义需要进行“外延”填充的区域(即“outpainted” 区域)。
  3. 多视角条件 – 扩散模型不仅接收带遮罩的 RGB 图像,还接收深度图和一个粗糙的几何代理(例如体素网格或点云),用于编码场景的形状。
  4. 几何感知去噪 – 在每一次扩散步骤中,去噪器受到几何代理的引导,确保新生成的像素与底层三维结构以及相邻视图保持一致。
  5. 融合与重建 – 将外延填充后的图像重新投影回全局坐标系,并使用体素融合(TSDF)合并,生成最终的网格或点云。

所有步骤均在单个 GPU 上运行;扩散模型的主干采用标准的预训练 Stable Diffusion‑2 模型,开发者可以在无需重新训练的情况下替换为其他扩散模型主干。

结果与发现

  • Quantitative gains: 在 Replica 数据集上,当仅有 3 个视角时,GaMO 将 PSNR 提高了 1.8 dB,LPIPS 降低了 0.07,相较于之前最佳的扩散方法。类似的提升也出现在 ScanNet++ 的 6‑视角和 9‑视角设置中。
  • Coverage: 外延绘制将可观测场景面积扩展约 30 %,超出原始相机凸包,消除了稀疏视角管线中常见的“盲区”伪影。
  • Geometric consistency: 目视检查显示,相邻外延视图之间的拼接缝和深度不连续现象显著减少,这归功于几何感知去噪器。
  • Speed: 对于典型的室内场景(≈200 万体素),端到端处理时间为 8 分钟,而最接近的扩散基线需超过 3 小时。

实际影响

  • 快速原型 – 开发者现在可以仅通过几次手持手机拍摄生成体面的三维重建,从而在无需密集捕获装置的情况下快速创建 AR/VR 内容。
  • 机器人与导航 – 无人机或自动驾驶车辆上的稀疏 LiDAR 或 RGB‑D 传感器可以通过外延绘制(outpainting)来补全遮挡区域,从而实时提升地图的完整性。
  • 成本效益扫描 – 提供三维扫描服务的公司可以减少所需的扫描次数,降低人工成本和设备磨损,同时仍能交付高保真模型。
  • 即插即用集成 – 由于 GaMO 能够零样本使用现成的扩散模型,它可以轻松嵌入现有流水线(例如 Unity、Unreal、Open3D),几乎无需修改代码。

限制与未来工作

  • 依赖准确的深度 – 几何代理假设深度相对正确;噪声深度传感器会降低外延绘制质量。
  • 户外可扩展性 – 实验主要集中在室内数据集;处理大规模、光照变化的户外场景仍是一个未解决的挑战。
  • 模型规模 – 虽然比之前的扩散方法更快,但该方法仍依赖于重量级的扩散主干网络,这可能对边缘设备构成限制。
  • 未来方向 作者提出的包括轻量级扩散适配器、更好地处理动态物体,以及将外延绘制概念扩展到多模态输入(例如语义掩码)。

作者

  • Yi‑Chuan Huang
  • Hao‑Jen Chien
  • Chin‑Yang Lin
  • Ying‑Huan Chen
  • Yu‑Lun Liu

论文信息

  • arXiv ID: 2512.25073v1
  • 类别: cs.CV
  • 出版时间: 2025年12月31日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »