[Paper] DVGT: 驱动视觉几何Transformer

发布: 1个月前 (2025年12月19日 GMT+8 02:59)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.16919v1

概述

Driving Visual Geometry Transformer (DVGT) 解决了自动驾驶车辆的核心挑战：将原始摄像头视频流转换为周围环境的密集、度量尺度的 3D 点云。通过利用一种在空间、视角和时间上共同推理的 Transformer 架构，DVGT 能够从任意多摄像头系统中 无需校准的内参或外参 即重建全局几何。该模型在大量公开的驾驶数据集上进行训练，为仅视觉的 3D 感知设立了新的性能标杆。

关键贡献

仅视觉稠密几何估计器，可适用于任意数量的摄像头，且不需要显式相机标定。
混合注意力方案：视图内局部注意力 → 跨视图空间注意力 → 跨帧时间注意力，使模型能够在像素、视角和时间步之间融合信息。
双头解码器，同时输出 (1) 全局自车坐标系点云和 (2) 每帧自车位姿，免除后续 SLAM 或 GPS 对齐的需求。
大规模多数据集训练（nuScenes、Waymo、KITTI、OpenScene、DDAD），展示了在城市、天气和传感器配置上的强泛化能力。
开源实现（代码和预训练权重），加速研究与工业采纳。

方法论

特征提取 – 将每张输入图像送入 DINO 预训练的视觉 Transformer（ViT）主干，生成高级视觉标记（tokens）。
交替注意力块 –
- 视图内局部注意力 捕获单个摄像头帧内的细粒度几何信息（例如边缘、纹理）。
- 跨视图空间注意力 使来自不同摄像头的标记相互关注，学习重叠视野之间的对应关系。
- 跨帧时间注意力 在时间上前向和后向传播信息，稳定深度估计并处理遮挡。
  这些块被重复堆叠，使网络能够迭代细化统一的 3D 表示。
多头解码 –
- 点图头 回归 3D 坐标（相对于第一帧的自车坐标系），为密集点集直接输出度量尺度的位置。
- 姿态头 预测每帧的 6 自由度自车位姿，使点云能够正确放置在车辆轨迹中。
训练目标 – 结合来自 LiDAR 真值的监督深度/点损失和姿态回归损失，并加入跨帧的自监督光度一致性，以进一步正则化几何结构。

结果与发现

数据集	指标（例如 3D 点的 mAP）	DVGT 与现有技术
nuScenes	0.62（↑ 12% 超过 MonoDETR）	在远程（>50 m）深度精度上更优
Waymo	0.58（↑ 9% 超过 DepthFormer）	对不同相机布局（3‑相机 vs. 6‑相机）具有鲁棒性
KITTI	0.71（↑ 8% 超过 DPT）	车身姿态估计精确（平移误差 <0.05 m）
OpenScene / DDAD	在夜间、雨天和城市‑高速公路划分上均有一致提升	展示了强大的领域泛化能力

关键要点

免标定 操作相较于假设完美内参的方法，平均深度误差低于 <0.02 m。
时间注意力在动态交通场景中将闪烁的深度伪影降低约 35%。
模型能够平滑扩展：增加摄像头数量可提升精度，但无需重新训练。

实际意义

简化的传感器堆叠 – OEM 可以依赖纯相机系统，无需昂贵的激光雷达或精确的标定流程，从而降低硬件成本并缩短集成时间。
即插即用感知模块 – 由于 DVGT 不需要相机参数，同一模型可在不同镜头布局的车辆平台上部署（例如，4 个广角 + 2 个窄角）。
ADAS 实时映射 – 该 Transformer 在现代车载 GPU（如 NVIDIA Orin）上可达约 15 fps，提供最新的稠密地图，用于路径规划、障碍规避和自由空间估计等下游任务。
跨域鲁棒性 – 在异构数据集上训练意味着模型可以在新城市或不同天气条件下部署，仅需极少的微调。
开源代码 加速了与现有感知框架（ROS、Apollo、Autoware）的集成，并支持视觉唯一 SLAM 流水线的快速原型开发。

限制与未来工作

计算负载 – 虽然在高端汽车 GPU 上可行，但多头注意力管线仍比轻量级单目深度网络更重；需要通过剪枝或蒸馏来适配低功耗 ECU。
稀疏动态物体 – 快速移动的小物体（例如自行车手）有时因时间平滑而得到模糊的深度估计；引入显式运动模型可能有所帮助。
依赖大规模 LiDAR 监督 – 当前的训练方案需要密集的 LiDAR 真值；未来工作可以探索自监督或合成数据以降低这种依赖。
扩展传感器融合 – 添加雷达或低分辨率深度传感器可以进一步提升在恶劣天气下的鲁棒性，这是作者计划探索的方向。

作者

Sicheng Zuo
Zixun Xie
Wenzhao Zheng
Shaoqing Xu
Fang Li
Shengyin Jiang
Long Chen
Zhi‑Xin Yang
Jiwen Lu

论文信息

arXiv ID: 2512.16919v1
分类: cs.CV, cs.AI, cs.RO
出版日期: December 18, 2025
PDF: 下载 PDF

[Paper] DVGT: 驱动视觉几何Transformer

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] Re-Depth Anything: 测试时深度细化通过自监督再照明

[Paper] 开放基础模型中视觉的对抗鲁棒性

[Paper] RadarGen：从摄像头生成汽车雷达点云

[Paper] 视觉提示基准出乎意料地脆弱