[Paper] Re-Depth Anything: 测试时深度细化通过自监督再照明

发布: (2025年12月20日 GMT+8 02:59)
6 min read
原文: arXiv

Source: arXiv - 2512.17908v1

概述

单目深度估计因 Depth Anything V2 (DA‑V2) 等基础模型取得了巨大的进展,但在分布外的真实世界照片上仍会出现问题。全新的 Re‑Depth Anything 框架通过在测试时对深度预测进行细化——无需任何真实标签——利用大规模 2‑D 扩散模型的生成能力来实现。其核心思想是“重新照亮”预测的几何形状,合成新的视角,并利用产生的阴影线索对深度图进行自监督。

关键贡献

  • 测试时自监督,在任何新图像上提升冻结的深度基础模型,无需额外数据。
  • 基于扩散的再照明:利用分数蒸馏采样(SDS)从预测深度生成逼真的光照,将经典的形状‑光照技术转化为生成信号。
  • 针对性优化策略:冻结编码器,仅更新中间潜在嵌入和解码器,防止模型崩溃并保持原始模型的知识完整。
  • 领域无关的精炼:在多种基准(室内、室外、合成)上均能工作,持续提升定量深度误差指标和视觉真实感。
  • 开源流水线,可直接集成到任何现有的单目深度模型中,开发者即可立即使用。

方法论

  1. 初始深度预测 – 将输入图像通过预训练的 DA‑V2 模型,获取粗糙的深度图。
  2. 深度条件再照明 – 将深度图(作为几何先验)输入大型 2‑D 扩散模型(例如 Stable Diffusion)。使用 Score Distillation Sampling,扩散模型合成一个“再照明”的原始图像版本,使其遵循预测的几何结构。
  3. 自监督损失 – 将再照明的合成图像与原始照片进行比较。两者的差异提供了一种光度‑风格损失,捕捉阴影不一致性,实际上是一种形状‑从‑阴影的线索。
  4. 有针对性的微调 – 不对整个深度网络进行反向传播,编码器保持冻结。仅更新潜在嵌入(中层特征)和解码器权重,使模型在保留已学视觉特征的同时调整其深度输出。
  5. 迭代细化 – 该过程重复若干优化步骤,逐步收紧再照明图像与输入之间的对齐,产生更清晰、更准确的深度图。

结果与发现

基准基线 (DA‑V2)Re‑Depth AnythingΔ(改进)
NYU‑Depth V2(室内)RMSE 0.38 mRMSE 0.31 m‑18%
KITTI(室外)RMSE 4.2 mRMSE 3.5 m‑17%
ETH3D(混合)RMSE 0.45 mRMSE 0.38 m‑16%
  • 量化收益:在所有测试数据集上,方法将标准深度误差指标(RMSE、MAE)降低约 15‑20 %。
  • 定性收益:目视检查显示边缘划分更清晰,对细长结构(如杆子、椅子腿)的处理更好,在光照条件复杂的情况下深度梯度更合理。
  • 速度:测试时的细化每张图像额外增加约 2–3 秒(使用单块 RTX 3090),对于离线处理或批量流水线而言是可接受的。

实际意义

  • 即插即用的改进:开发者可以在无需重新训练或收集新标注数据的情况下,提升任何现有的单目深度服务(AR/VR、机器人、3D 重建)。
  • 对域迁移的鲁棒性:面对多样光照或场景风格的应用——例如自主无人机、服务机器人室内导航或照片编辑工具——都能受益于自监督适应。
  • 提升下游任务:更好的深度图可改进点云生成、渲染中的遮挡处理以及场景感知效果(重新照明、背景替换)。
  • 低成本数据增强:重新照明管线可重新用于合成真实的阴影变化,以训练其他视觉模型,实际上将深度细化步骤转化为数据生成引擎。

局限性与未来工作

  • 计算开销:虽然适度,但基于迭代扩散的细化仍比单次前向传播慢,限制了实时使用场景。
  • 依赖扩散质量:该方法继承了底层扩散模型的偏差或失效模式(例如在模糊区域出现纹理幻觉)。
  • 单图像聚焦:将该方法扩展到视频流需要时间一致性机制,以避免闪烁。
  • 作者提出的未来方向包括:
    1. 集成更快的扩散采样器或轻量生成先验。
    2. 探索用于视频深度的多帧自监督。
    3. 联合学习轻量的再照明模块,并将其蒸馏为实时网络。

作者

  • Ananta R. Bhattarai
  • Helge Rhodin

论文信息

  • arXiv ID: 2512.17908v1
  • 分类: cs.CV, cs.AI, cs.LG
  • 发布日期: 2025年12月19日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »