[Paper] Depth Any Panoramas: 全景深度估计的基础模型

发布: (2025年12月19日 GMT+8 02:59)
7 min read
原文: arXiv

Source: arXiv - 2512.16913v1

概述

本文介绍了 Depth Any Panoramas (DAP),一种基础模型,能够从 360° 全景图像中预测准确的度量深度,适用于广泛的室内和室外场景。通过结合大规模、多样化的训练集、巧妙的伪标签以及几何感知的网络设计,DAP 在多个公开基准上实现了强大的零样本性能,使全景深度估计在实际应用中更加可靠。

关键贡献

  • 大规模、异构的训练语料库 – 合并公共数据集、高保真 UE5 生成的合成全景、文本到图像生成的场景,以及数百万真实网络全景。
  • 三阶段伪标签策划流水线 – 自动细化未标记图像中的噪声深度提示,降低合成/真实以及室内/室外数据之间的域差距。
  • 即插即用的范围掩码头 – 动态分离近、中、远深度范围,使主干网络能够专注于最具信息量的区域。
  • 以锐度为中心和以几何为中心的损失函数 – 鼓励清晰的深度边缘,并在等距矩形投影下强制多视图几何一致性。
  • 零样本泛化 – 无需任何微调,DAP 在 Stanford2D3D、Matterport3D、Deep360 等基准上表现优于或匹配专用模型。

方法论

  1. 数据构建

    • 合成数据:在 Unreal Engine 5 (UE5) 中渲染全景 RGB‑D 对,使用基于物理的光照和多样化布局。
    • 文本到图像增强:使用扩散模型(例如 Stable Diffusion)生成新颖的全景场景,然后使用强大的单目深度网络估计深度并配对。
    • 网络规模真实全景:从公共来源(如 Flickr、Google Street View)爬取数百万张 360° 图像。
  2. 伪标签策划

    • 阶段 1 – 粗过滤:剔除深度明显不一致的图像(例如,极度模糊、缺失地平线)。
    • 阶段 2 – 多模型共识:运行多个现成的深度估计器;仅保留预测在容差范围内一致的深度值。
    • 阶段 3 – 几何细化:利用已知的等距矩形几何进行多视图一致性检查,平滑并纠正异常值,生成可靠的“伪真值”深度图。
  3. 模型架构

    • 主干网络:DINOv3‑Large(在海量图像集合上预训练的视觉 Transformer)提供强大的通用视觉特征。
    • 范围掩码头:一个轻量模块,预测用于分离深度范围的软掩码;该掩码在最终深度回归前对主干特征进行门控。
    • 损失函数
      • 锐度中心损失:惩罚模糊的深度边缘,保留物体边界。
      • 几何中心损失:强制深度值遵守球面投影约束(例如,在大圆弧上保持一致的深度)。
  4. 训练与推理

    • 在混合合成/真实批次的策划数据集上端到端训练。
    • 推理时,范围掩码头会自动适应场景的距离分布,无需额外参数或后处理。

结果与发现

基准指标 (↓RMSE)相对提升 vs. 先前 SOTA
Stanford2D3D(室内)0.12 m+15 %
Matterport3D(室内)0.14 m+12 %
Deep360(室外)0.18 m+18 %
未见数据集的零样本(例如 SUN360)0.21 m—(基线模型下降 >30 %)
  • 对距离的鲁棒性:范围掩码头显著降低了远处物体的误差峰值,这是之前全景深度模型常见的失效模式。
  • 锐利边缘保留:定性示例显示墙壁、家具和植被周围的深度不连续性保持清晰,这归功于以锐度为中心的损失函数。
  • 零样本能力:无需任何微调,DAP 在全新全景图上仍保持高精度,表明其从多样化训练集获得了强大的泛化能力。

实际意义

  • VR/AR 内容创作 – 开发者可以为 360° 资产自动生成度量深度图,实现真实的遮挡、光照和物理交互,无需手动标注。
  • 机器人与自主导航 – 配备单个全景摄像头的移动机器人可获取可靠的深度信息,用于 SLAM 或障碍规避,适用于室内仓库和室外场地。
  • 空间分析与制图 – 房地产、旅游和 GIS 平台可以在大规模全景导览中加入深度感知测量(房间尺寸、平面图)。
  • 内容感知压缩 – 深度图可指导可变比特率编码,对近处物体分配更多比特,而对远处背景进行更激进的压缩。

限制与未来工作

  • 残余域差距:虽然伪标签流水线减轻了它,但极端光照条件(例如夜间街道全景)仍会导致偶尔的深度漂移。
  • 计算成本:DINOv3‑Large 主干对边缘设备来说较为笨重;蒸馏版或轻量级 Transformer 可以扩大部署范围。
  • 动态场景:当前模型假设几何静止;移动的物体(人、车辆)可能产生不一致的深度估计。未来工作可以整合时间线索或运动分割。

总体而言,DAP 标志着从全景图像实现通用高质量深度感知的重大进展,为开发沉浸式和空间感知应用的开发者打开了新可能。

作者

  • Xin Lin
  • Meixi Song
  • Dizhe Zhang
  • Wenxuan Lu
  • Haodong Li
  • Bo Du
  • Ming‑Hsuan Yang
  • Truong Nguyen
  • Lu Qi

论文信息

  • arXiv ID: 2512.16913v1
  • 分类: cs.CV
  • 发布时间: 2025年12月18日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »

[Paper] 灵巧的世界模型

近期在 3D reconstruction 方面的进展使得从日常环境中轻松创建逼真的 digital twins 成为可能。然而,当前的 digital twins 仍然规模庞大...