[Paper] Depth Any Panoramas: 全景深度估计的基础模型

发布: 1个月前 (2025年12月19日 GMT+8 02:59)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.16913v1

概述

本文介绍了 Depth Any Panoramas (DAP)，一种基础模型，能够从 360° 全景图像中预测准确的度量深度，适用于广泛的室内和室外场景。通过结合大规模、多样化的训练集、巧妙的伪标签以及几何感知的网络设计，DAP 在多个公开基准上实现了强大的零样本性能，使全景深度估计在实际应用中更加可靠。

关键贡献

大规模、异构的训练语料库 – 合并公共数据集、高保真 UE5 生成的合成全景、文本到图像生成的场景，以及数百万真实网络全景。
三阶段伪标签策划流水线 – 自动细化未标记图像中的噪声深度提示，降低合成/真实以及室内/室外数据之间的域差距。
即插即用的范围掩码头 – 动态分离近、中、远深度范围，使主干网络能够专注于最具信息量的区域。
以锐度为中心和以几何为中心的损失函数 – 鼓励清晰的深度边缘，并在等距矩形投影下强制多视图几何一致性。
零样本泛化 – 无需任何微调，DAP 在 Stanford2D3D、Matterport3D、Deep360 等基准上表现优于或匹配专用模型。

方法论

数据构建
- 合成数据：在 Unreal Engine 5 (UE5) 中渲染全景 RGB‑D 对，使用基于物理的光照和多样化布局。
- 文本到图像增强：使用扩散模型（例如 Stable Diffusion）生成新颖的全景场景，然后使用强大的单目深度网络估计深度并配对。
- 网络规模真实全景：从公共来源（如 Flickr、Google Street View）爬取数百万张 360° 图像。
伪标签策划
- 阶段 1 – 粗过滤：剔除深度明显不一致的图像（例如，极度模糊、缺失地平线）。
- 阶段 2 – 多模型共识：运行多个现成的深度估计器；仅保留预测在容差范围内一致的深度值。
- 阶段 3 – 几何细化：利用已知的等距矩形几何进行多视图一致性检查，平滑并纠正异常值，生成可靠的“伪真值”深度图。
模型架构
- 主干网络：DINOv3‑Large（在海量图像集合上预训练的视觉 Transformer）提供强大的通用视觉特征。
- 范围掩码头：一个轻量模块，预测用于分离深度范围的软掩码；该掩码在最终深度回归前对主干特征进行门控。
- 损失函数：
  - 锐度中心损失：惩罚模糊的深度边缘，保留物体边界。
  - 几何中心损失：强制深度值遵守球面投影约束（例如，在大圆弧上保持一致的深度）。
训练与推理
- 在混合合成/真实批次的策划数据集上端到端训练。
- 推理时，范围掩码头会自动适应场景的距离分布，无需额外参数或后处理。

结果与发现

基准	指标 (↓RMSE)	相对提升 vs. 先前 SOTA
Stanford2D3D（室内）	0.12 m	+15 %
Matterport3D（室内）	0.14 m	+12 %
Deep360（室外）	0.18 m	+18 %
未见数据集的零样本（例如 SUN360）	0.21 m	—（基线模型下降 >30 %）

对距离的鲁棒性：范围掩码头显著降低了远处物体的误差峰值，这是之前全景深度模型常见的失效模式。
锐利边缘保留：定性示例显示墙壁、家具和植被周围的深度不连续性保持清晰，这归功于以锐度为中心的损失函数。
零样本能力：无需任何微调，DAP 在全新全景图上仍保持高精度，表明其从多样化训练集获得了强大的泛化能力。

实际意义

VR/AR 内容创作 – 开发者可以为 360° 资产自动生成度量深度图，实现真实的遮挡、光照和物理交互，无需手动标注。
机器人与自主导航 – 配备单个全景摄像头的移动机器人可获取可靠的深度信息，用于 SLAM 或障碍规避，适用于室内仓库和室外场地。
空间分析与制图 – 房地产、旅游和 GIS 平台可以在大规模全景导览中加入深度感知测量（房间尺寸、平面图）。
内容感知压缩 – 深度图可指导可变比特率编码，对近处物体分配更多比特，而对远处背景进行更激进的压缩。

限制与未来工作

残余域差距：虽然伪标签流水线减轻了它，但极端光照条件（例如夜间街道全景）仍会导致偶尔的深度漂移。
计算成本：DINOv3‑Large 主干对边缘设备来说较为笨重；蒸馏版或轻量级 Transformer 可以扩大部署范围。
动态场景：当前模型假设几何静止；移动的物体（人、车辆）可能产生不一致的深度估计。未来工作可以整合时间线索或运动分割。

总体而言，DAP 标志着从全景图像实现通用高质量深度感知的重大进展，为开发沉浸式和空间感知应用的开发者打开了新可能。

作者

Xin Lin
Meixi Song
Dizhe Zhang
Wenxuan Lu
Haodong Li
Bo Du
Ming‑Hsuan Yang
Truong Nguyen
Lu Qi

论文信息

arXiv ID: 2512.16913v1
分类: cs.CV
发布时间: 2025年12月18日
PDF: 下载 PDF

[Paper] Depth Any Panoramas: 全景深度估计的基础模型

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 语义与重建同等重要：让表示编码器准备好用于文本到图像生成与编辑

[Paper] Re-Depth Anything: 测试时深度细化通过自监督再照明

[Paper] 灵巧的世界模型

[Paper] 开放基础模型中视觉的对抗鲁棒性