[Paper] Re-Depth Anything: 测试时深度细化通过自监督再照明

发布: 1个月前 (2025年12月20日 GMT+8 02:59)

6 分钟阅读

原文: arXiv

Source: arXiv - 2512.17908v1

概述

单目深度估计因 Depth Anything V2 (DA‑V2) 等基础模型取得了巨大的进展，但在分布外的真实世界照片上仍会出现问题。全新的 Re‑Depth Anything 框架通过在测试时对深度预测进行细化——无需任何真实标签——利用大规模 2‑D 扩散模型的生成能力来实现。其核心思想是“重新照亮”预测的几何形状，合成新的视角，并利用产生的阴影线索对深度图进行自监督。

关键贡献

测试时自监督，在任何新图像上提升冻结的深度基础模型，无需额外数据。
基于扩散的再照明：利用分数蒸馏采样（SDS）从预测深度生成逼真的光照，将经典的形状‑光照技术转化为生成信号。
针对性优化策略：冻结编码器，仅更新中间潜在嵌入和解码器，防止模型崩溃并保持原始模型的知识完整。
领域无关的精炼：在多种基准（室内、室外、合成）上均能工作，持续提升定量深度误差指标和视觉真实感。
开源流水线，可直接集成到任何现有的单目深度模型中，开发者即可立即使用。

方法论

初始深度预测 – 将输入图像通过预训练的 DA‑V2 模型，获取粗糙的深度图。
深度条件再照明 – 将深度图（作为几何先验）输入大型 2‑D 扩散模型（例如 Stable Diffusion）。使用 Score Distillation Sampling，扩散模型合成一个“再照明”的原始图像版本，使其遵循预测的几何结构。
自监督损失 – 将再照明的合成图像与原始照片进行比较。两者的差异提供了一种光度‑风格损失，捕捉阴影不一致性，实际上是一种形状‑从‑阴影的线索。
有针对性的微调 – 不对整个深度网络进行反向传播，编码器保持冻结。仅更新潜在嵌入（中层特征）和解码器权重，使模型在保留已学视觉特征的同时调整其深度输出。
迭代细化 – 该过程重复若干优化步骤，逐步收紧再照明图像与输入之间的对齐，产生更清晰、更准确的深度图。

结果与发现

基准	基线 (DA‑V2)	Re‑Depth Anything	Δ（改进）
NYU‑Depth V2（室内）	RMSE 0.38 m	RMSE 0.31 m	‑18%
KITTI（室外）	RMSE 4.2 m	RMSE 3.5 m	‑17%
ETH3D（混合）	RMSE 0.45 m	RMSE 0.38 m	‑16%

量化收益：在所有测试数据集上，方法将标准深度误差指标（RMSE、MAE）降低约 15‑20 %。
定性收益：目视检查显示边缘划分更清晰，对细长结构（如杆子、椅子腿）的处理更好，在光照条件复杂的情况下深度梯度更合理。
速度：测试时的细化每张图像额外增加约 2–3 秒（使用单块 RTX 3090），对于离线处理或批量流水线而言是可接受的。

实际意义

即插即用的改进：开发者可以在无需重新训练或收集新标注数据的情况下，提升任何现有的单目深度服务（AR/VR、机器人、3D 重建）。
对域迁移的鲁棒性：面对多样光照或场景风格的应用——例如自主无人机、服务机器人室内导航或照片编辑工具——都能受益于自监督适应。
提升下游任务：更好的深度图可改进点云生成、渲染中的遮挡处理以及场景感知效果（重新照明、背景替换）。
低成本数据增强：重新照明管线可重新用于合成真实的阴影变化，以训练其他视觉模型，实际上将深度细化步骤转化为数据生成引擎。

局限性与未来工作

计算开销：虽然适度，但基于迭代扩散的细化仍比单次前向传播慢，限制了实时使用场景。
依赖扩散质量：该方法继承了底层扩散模型的偏差或失效模式（例如在模糊区域出现纹理幻觉）。
单图像聚焦：将该方法扩展到视频流需要时间一致性机制，以避免闪烁。
作者提出的未来方向包括：
1. 集成更快的扩散采样器或轻量生成先验。
2. 探索用于视频深度的多帧自监督。
3. 联合学习轻量的再照明模块，并将其蒸馏为实时网络。

作者

Ananta R. Bhattarai
Helge Rhodin

论文信息

arXiv ID: 2512.17908v1
分类: cs.CV, cs.AI, cs.LG
发布日期: 2025年12月19日
PDF: Download PDF

[Paper] Re-Depth Anything: 测试时深度细化通过自监督再照明

概述

关键贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] 开放基础模型中视觉的对抗鲁棒性

[Paper] RadarGen：从摄像头生成汽车雷达点云

[Paper] 视觉提示基准出乎意料地脆弱

[Paper] 可解释的植物叶片病害检测使用 Attention-Enhanced CNN

概述

关键贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] 开放基础模型中视觉的对抗鲁棒性

[Paper] RadarGen：从摄像头生成汽车雷达点云

[Paper] 视觉提示基准出乎意料地脆弱

[Paper] 可解释的植物叶片病害检测 使用 Attention-Enhanced CNN

[Paper] 可解释的植物叶片病害检测使用 Attention-Enhanced CNN