[Paper] Pixel-Perfect 视觉几何估计
发布: (2026年1月9日 GMT+8 02:59)
7 min read
原文: arXiv
Source: arXiv - 2601.05246v1
概述
本文介绍了 Pixel‑Perfect Visual Geometry (PPG) 模型,这些模型能够直接从单张图像或视频流生成超清晰的深度图和点云。通过将扩散过程移至像素域并使用语义线索进行引导,作者消除了臭名昭著的“飞像素”伪影,并恢复了细微的几何细节——这一进展有望使机器人、AR/VR 和 3‑D 内容创作的深度感知更加可靠。
关键贡献
- Pixel‑Perfect Depth (PPD): 一个基于像素空间扩散变换器(DiT)的单目深度基础模型。
- Semantics‑Prompted DiT: 将来自大型视觉模型的高级语义嵌入注入扩散过程,保持全局场景上下文的同时提升局部几何细节。
- Cascade DiT architecture: 在扩散过程中逐步扩大 token 分辨率,实现计算量与精度之间的良好平衡。
- Pixel‑Perfect Video Depth (PPVD): 通过使用语义一致的 DiT,从多视角几何基础模型中获取时间一致的语义,将 PPD 扩展到视频。
- Reference‑guided token propagation: 一种轻量级机制,在不显著增加内存或运行时开销的情况下,确保帧间的时间一致性。
- State‑of‑the‑art performance: 这些模型在标准基准上超越所有现有的生成式单目和视频深度估计器,并显著生成更干净的点云。
Methodology
- 像素空间扩散: 与在潜在嵌入上操作不同,扩散模型直接对全分辨率深度图进行去噪。这样网络能够以细粒度推理每个像素的几何信息。
- 语义提示: 预训练的视觉基础模型(例如 CLIP 或 DINO)为输入图像提取紧凑的语义向量。该向量在每一步与扩散 Transformer 的 token 嵌入拼接,引导去噪朝向语义上合理的结构(墙壁、椅子等)。
- 级联 token 增长: 扩散过程从粗糙的 token 网格(例如 16×16)开始,逐步上采样到更细的网格(32×32、64×64 …)。每个阶段在复用先前计算的同时细化深度预测,与一次性高分辨率扩散相比显著降低 FLOPs。
- 视频扩展: 对于每一帧,语义一致的 DiT 接收来自多视图几何模型(例如预训练的 NeRF 或 SLAM 系统)的时间平滑语义嵌入。轻量级的 token 传播模块将高置信度的 token 从参考帧复制到当前帧,确保运动物体和静态背景随时间保持一致。
结果与发现
| 基准 | 指标(越低越好) | PPD / PPVD | 先前最佳 |
|---|---|---|---|
| NYU‑Depth V2(单目) | 均方根误差(米) | 0.28 | 0.34 |
| KITTI(视频) | 绝对相对误差 | 0.072 | 0.089 |
| ScanNet(点云清洁度) | 飞行像素百分比 | 0.4 % | 2.7 % |
- 视觉质量: 定性示例显示出清晰的物体边缘,保留细小结构(例如椅子腿),且没有其他模型常出现的伪深度尖峰。
- 效率: 级联设计相比于朴素的全分辨率扩散将推理时间降低约30%,同时在单个 RTX 4090 上以约 8 fps 处理 720p 视频。
- 时间稳定性: PPVD 的 token 传播将深度抖动限制在连续帧之间低于 0.02 m,对下游 SLAM 流水线是显著的改进。
实际意义
- 机器人与自主导航: 更干净的深度图意味着更少的误报障碍物,在杂乱的室内环境中,飞行像素导致的代价高昂的重新规划问题将大幅减少,路径规划更加可靠。
- AR/VR 内容创作: 开发者可以仅使用单个手持摄像头生成高保真点云,简化混合现实场景的重建,无需 LiDAR 硬件。
- 三维扫描与数字孪生: 能够从普通 RGB 视频中恢复细微几何形状,降低了创建现有空间精确数字孪生的门槛。
- 基于视频的深度服务: 提供深度感知特效(例如背景替换)的流媒体平台现在可以在不消耗大量 GPU 资源的情况下保持时间一致性。
限制与未来工作
- 训练成本: 像素空间扩散仍然需要大型 GPU 集群和大量数据(≈200 万 图像‑深度 对)才能收敛,这可能限制小型实验室的可复现性。
- 对极端光照的泛化: 在低光或高度反射的场景中,语义线索变得模糊,模型性能下降。
- 实时约束: 尽管级联结构降低了开销,但在边缘设备上实现真正的实时(≥30 fps)仍不可达。
- 未来方向: 作者建议集成轻量级编码‑解码骨干网络用于设备端推理,探索自监督语义提示以降低对外部视觉模型的依赖,并将框架扩展到多模态输入(例如 RGB‑IR)。
作者
- Gangwei Xu
- Haotong Lin
- Hongcheng Luo
- Haiyang Sun
- Haiyang Sun
- Bing Wang
- Guang Chen
- Sida Peng
- Hangjun Ye
- Xin Yang
论文信息
- arXiv ID: 2601.05246v1
- 分类: cs.CV
- 发表时间: 2026年1月8日
- PDF: 下载 PDF