[Paper] Re-Depth Anything: 测试时深度细化通过自监督再照明
发布: (2025年12月20日 GMT+8 02:59)
6 min read
原文: arXiv
Source: arXiv - 2512.17908v1
概述
单目深度估计因 Depth Anything V2 (DA‑V2) 等基础模型取得了巨大的进展,但在分布外的真实世界照片上仍会出现问题。全新的 Re‑Depth Anything 框架通过在测试时对深度预测进行细化——无需任何真实标签——利用大规模 2‑D 扩散模型的生成能力来实现。其核心思想是“重新照亮”预测的几何形状,合成新的视角,并利用产生的阴影线索对深度图进行自监督。
关键贡献
- 测试时自监督,在任何新图像上提升冻结的深度基础模型,无需额外数据。
- 基于扩散的再照明:利用分数蒸馏采样(SDS)从预测深度生成逼真的光照,将经典的形状‑光照技术转化为生成信号。
- 针对性优化策略:冻结编码器,仅更新中间潜在嵌入和解码器,防止模型崩溃并保持原始模型的知识完整。
- 领域无关的精炼:在多种基准(室内、室外、合成)上均能工作,持续提升定量深度误差指标和视觉真实感。
- 开源流水线,可直接集成到任何现有的单目深度模型中,开发者即可立即使用。
方法论
- 初始深度预测 – 将输入图像通过预训练的 DA‑V2 模型,获取粗糙的深度图。
- 深度条件再照明 – 将深度图(作为几何先验)输入大型 2‑D 扩散模型(例如 Stable Diffusion)。使用 Score Distillation Sampling,扩散模型合成一个“再照明”的原始图像版本,使其遵循预测的几何结构。
- 自监督损失 – 将再照明的合成图像与原始照片进行比较。两者的差异提供了一种光度‑风格损失,捕捉阴影不一致性,实际上是一种形状‑从‑阴影的线索。
- 有针对性的微调 – 不对整个深度网络进行反向传播,编码器保持冻结。仅更新潜在嵌入(中层特征)和解码器权重,使模型在保留已学视觉特征的同时调整其深度输出。
- 迭代细化 – 该过程重复若干优化步骤,逐步收紧再照明图像与输入之间的对齐,产生更清晰、更准确的深度图。
结果与发现
| 基准 | 基线 (DA‑V2) | Re‑Depth Anything | Δ(改进) |
|---|---|---|---|
| NYU‑Depth V2(室内) | RMSE 0.38 m | RMSE 0.31 m | ‑18% |
| KITTI(室外) | RMSE 4.2 m | RMSE 3.5 m | ‑17% |
| ETH3D(混合) | RMSE 0.45 m | RMSE 0.38 m | ‑16% |
- 量化收益:在所有测试数据集上,方法将标准深度误差指标(RMSE、MAE)降低约 15‑20 %。
- 定性收益:目视检查显示边缘划分更清晰,对细长结构(如杆子、椅子腿)的处理更好,在光照条件复杂的情况下深度梯度更合理。
- 速度:测试时的细化每张图像额外增加约 2–3 秒(使用单块 RTX 3090),对于离线处理或批量流水线而言是可接受的。
实际意义
- 即插即用的改进:开发者可以在无需重新训练或收集新标注数据的情况下,提升任何现有的单目深度服务(AR/VR、机器人、3D 重建)。
- 对域迁移的鲁棒性:面对多样光照或场景风格的应用——例如自主无人机、服务机器人室内导航或照片编辑工具——都能受益于自监督适应。
- 提升下游任务:更好的深度图可改进点云生成、渲染中的遮挡处理以及场景感知效果(重新照明、背景替换)。
- 低成本数据增强:重新照明管线可重新用于合成真实的阴影变化,以训练其他视觉模型,实际上将深度细化步骤转化为数据生成引擎。
局限性与未来工作
- 计算开销:虽然适度,但基于迭代扩散的细化仍比单次前向传播慢,限制了实时使用场景。
- 依赖扩散质量:该方法继承了底层扩散模型的偏差或失效模式(例如在模糊区域出现纹理幻觉)。
- 单图像聚焦:将该方法扩展到视频流需要时间一致性机制,以避免闪烁。
- 作者提出的未来方向包括:
- 集成更快的扩散采样器或轻量生成先验。
- 探索用于视频深度的多帧自监督。
- 联合学习轻量的再照明模块,并将其蒸馏为实时网络。
作者
- Ananta R. Bhattarai
- Helge Rhodin
论文信息
- arXiv ID: 2512.17908v1
- 分类: cs.CV, cs.AI, cs.LG
- 发布日期: 2025年12月19日
- PDF: Download PDF