[Paper] Depth Any Panoramas: 全景深度估计的基础模型
发布: (2025年12月19日 GMT+8 02:59)
7 min read
原文: arXiv
Source: arXiv - 2512.16913v1
概述
本文介绍了 Depth Any Panoramas (DAP),一种基础模型,能够从 360° 全景图像中预测准确的度量深度,适用于广泛的室内和室外场景。通过结合大规模、多样化的训练集、巧妙的伪标签以及几何感知的网络设计,DAP 在多个公开基准上实现了强大的零样本性能,使全景深度估计在实际应用中更加可靠。
关键贡献
- 大规模、异构的训练语料库 – 合并公共数据集、高保真 UE5 生成的合成全景、文本到图像生成的场景,以及数百万真实网络全景。
- 三阶段伪标签策划流水线 – 自动细化未标记图像中的噪声深度提示,降低合成/真实以及室内/室外数据之间的域差距。
- 即插即用的范围掩码头 – 动态分离近、中、远深度范围,使主干网络能够专注于最具信息量的区域。
- 以锐度为中心和以几何为中心的损失函数 – 鼓励清晰的深度边缘,并在等距矩形投影下强制多视图几何一致性。
- 零样本泛化 – 无需任何微调,DAP 在 Stanford2D3D、Matterport3D、Deep360 等基准上表现优于或匹配专用模型。
方法论
-
数据构建
- 合成数据:在 Unreal Engine 5 (UE5) 中渲染全景 RGB‑D 对,使用基于物理的光照和多样化布局。
- 文本到图像增强:使用扩散模型(例如 Stable Diffusion)生成新颖的全景场景,然后使用强大的单目深度网络估计深度并配对。
- 网络规模真实全景:从公共来源(如 Flickr、Google Street View)爬取数百万张 360° 图像。
-
伪标签策划
- 阶段 1 – 粗过滤:剔除深度明显不一致的图像(例如,极度模糊、缺失地平线)。
- 阶段 2 – 多模型共识:运行多个现成的深度估计器;仅保留预测在容差范围内一致的深度值。
- 阶段 3 – 几何细化:利用已知的等距矩形几何进行多视图一致性检查,平滑并纠正异常值,生成可靠的“伪真值”深度图。
-
模型架构
- 主干网络:DINOv3‑Large(在海量图像集合上预训练的视觉 Transformer)提供强大的通用视觉特征。
- 范围掩码头:一个轻量模块,预测用于分离深度范围的软掩码;该掩码在最终深度回归前对主干特征进行门控。
- 损失函数:
- 锐度中心损失:惩罚模糊的深度边缘,保留物体边界。
- 几何中心损失:强制深度值遵守球面投影约束(例如,在大圆弧上保持一致的深度)。
-
训练与推理
- 在混合合成/真实批次的策划数据集上端到端训练。
- 推理时,范围掩码头会自动适应场景的距离分布,无需额外参数或后处理。
结果与发现
| 基准 | 指标 (↓RMSE) | 相对提升 vs. 先前 SOTA |
|---|---|---|
| Stanford2D3D(室内) | 0.12 m | +15 % |
| Matterport3D(室内) | 0.14 m | +12 % |
| Deep360(室外) | 0.18 m | +18 % |
| 未见数据集的零样本(例如 SUN360) | 0.21 m | —(基线模型下降 >30 %) |
- 对距离的鲁棒性:范围掩码头显著降低了远处物体的误差峰值,这是之前全景深度模型常见的失效模式。
- 锐利边缘保留:定性示例显示墙壁、家具和植被周围的深度不连续性保持清晰,这归功于以锐度为中心的损失函数。
- 零样本能力:无需任何微调,DAP 在全新全景图上仍保持高精度,表明其从多样化训练集获得了强大的泛化能力。
实际意义
- VR/AR 内容创作 – 开发者可以为 360° 资产自动生成度量深度图,实现真实的遮挡、光照和物理交互,无需手动标注。
- 机器人与自主导航 – 配备单个全景摄像头的移动机器人可获取可靠的深度信息,用于 SLAM 或障碍规避,适用于室内仓库和室外场地。
- 空间分析与制图 – 房地产、旅游和 GIS 平台可以在大规模全景导览中加入深度感知测量(房间尺寸、平面图)。
- 内容感知压缩 – 深度图可指导可变比特率编码,对近处物体分配更多比特,而对远处背景进行更激进的压缩。
限制与未来工作
- 残余域差距:虽然伪标签流水线减轻了它,但极端光照条件(例如夜间街道全景)仍会导致偶尔的深度漂移。
- 计算成本:DINOv3‑Large 主干对边缘设备来说较为笨重;蒸馏版或轻量级 Transformer 可以扩大部署范围。
- 动态场景:当前模型假设几何静止;移动的物体(人、车辆)可能产生不一致的深度估计。未来工作可以整合时间线索或运动分割。
总体而言,DAP 标志着从全景图像实现通用高质量深度感知的重大进展,为开发沉浸式和空间感知应用的开发者打开了新可能。
作者
- Xin Lin
- Meixi Song
- Dizhe Zhang
- Wenxuan Lu
- Haodong Li
- Bo Du
- Ming‑Hsuan Yang
- Truong Nguyen
- Lu Qi
论文信息
- arXiv ID: 2512.16913v1
- 分类: cs.CV
- 发布时间: 2025年12月18日
- PDF: 下载 PDF