[Paper] InfiniDepth:任意分辨率和细粒度深度估计的神经隐式场
发布: (2026年1月7日 GMT+8 02:57)
7 min read
原文: arXiv
Source: arXiv - 2601.03252v1
概述
InfiniDepth 解决了单目深度估计中的一个长期瓶颈:对像素网格输出的依赖,这限制了分辨率并且遗漏了细微的几何细节。通过将深度表示为连续的神经隐式场,作者实现了在任意二维坐标上的深度查询,打开了生成任意高分辨率地图以及更清晰重建复杂结构的大门。论文还引入了一个新的 4K 合成基准,用于对这些能力进行压力测试。
关键贡献
- 神经隐式深度表示 – 将深度重新表述为通过轻量级局部隐式解码器学习的连续场,允许在任意图像坐标处查询深度。
- 任意分辨率输出 – 消除固定网格约束;开发者可以在任何分辨率(例如 4K、8K)请求深度,而无需重新训练。
- 细粒度细节恢复 – 与基于网格的基线相比,在细长结构、边缘和纹理丰富区域展示出更优的性能。
- 高质量 4K 合成基准 – 从五款现代电子游戏中策划,涵盖多样的室内/室外场景,具备丰富几何和真实光照。
- 跨任务收益 – 表明隐式深度图提升了新视角合成,在大视角变化下减少孔洞和伪影。
方法论
- 本地隐式解码器 – 网络采用标准 CNN 主干的特征图,对于每个查询坐标 ((u, v)),提取一个小的局部特征块。这些特征送入一个小型 MLP,预测该坐标的深度值。
- 连续查询 – 由于解码器是连续坐标的函数,深度可以在任意分辨率上即时采样(例如,双线性上采样被直接查询所取代)。
- 训练目标 – 模型使用相对深度排序损失(保持场景顺序)和度量 L1 损失(强制绝对尺度)的组合进行监督,并加入平滑正则项以鼓励局部表面一致。
- 基准构建 – 作者使用游戏引擎渲染 4K 分辨率的 RGB‑深度对,确保准确的真实几何和多样的视觉条件(光照、材质、运动)。
结果与发现
- 最新技术精度 – 在新的 4K 合成套件和已建立的真实世界数据集(例如 NYU‑Depth V2、KITTI)上,InfiniDepth 在标准深度指标(RMSE、δ<1.25)上比先前方法提升了 5–12%。
- 分辨率伸缩 – 在 8K 查询时,模型仍保持精度,而基于网格的基线由于必须从低分辨率预测上采样,精度急剧下降。
- 细节提升 – 边缘感知指标显示在细小物体(栏杆、线缆)和高频纹理上提升最高可达 30%。
- 视图合成 – 融入神经渲染管线后,隐式深度将填洞伪影降低 40%,并在 ±30° 相机位移下产生更平滑的新视角。
实际影响
- Game & VR Development – 开发者可以仅凭单帧 RGB 图像实时生成超高分辨率深度图,用于实时特效(例如景深、遮挡剔除),无需预先计算密集深度缓冲。
- Robotics & AR – 设备端推理能够在相机原始分辨率下生成细粒度深度,提升对传统传感器难以捕捉的细小物体的障碍检测能力。
- Content Creation Pipelines – 艺术家可以对深度进行上采样用于后期制作(如合成、再照明),避免插值伪影,节省手动深度编辑的时间。
- Neural Rendering – 隐式深度场可与 NeRF‑style 视图合成无缝集成,实现更高质量的新视角生成,适用于远程呈现或数字孪生。
Limitations & Future Work
- Inference Overhead – 通过 MLP 对每个像素单独查询的速度慢于密集解码器的一次前向传播;作者通过批处理进行缓解,但实时 8K 推理仍然对现有 GPU 构成挑战。
- Generalization to Unseen Domains – 虽然合成基准数据集多样,但在高度反射或透明表面(例如玻璃、水)上的表现仍然一般,表明需要进行领域自适应训练。
- Memory Footprint – 为局部解码存储高分辨率特征图会给移动或嵌入式设备带来压力。未来工作可以探索特征压缩或网格‑隐式混合方式。
InfiniDepth 证明,将深度估计从离散网格转向连续隐式场并非仅是理论练习——它为下一代视觉计算应用解锁了实用的高分辨率深度。
作者
- Hao Yu
- Haotong Lin
- Jiawei Wang
- Jiaxin Li
- Yida Wang
- Xueyang Zhang
- Yue Wang
- Xiaowei Zhou
- Ruizhen Hu
- Sida Peng
论文信息
- arXiv ID: 2601.03252v1
- 类别: cs.CV
- 出版日期: 2026年1月6日
- PDF: 下载 PDF