[Paper] 360DVO: 深度视觉里程计用于单目360度相机
发布: (2026年1月6日 GMT+8 01:52)
7 min read
原文: arXiv
Source: arXiv - 2601.02309v1
请提供您希望翻译的具体文本内容,我将按照要求保留源链接并进行简体中文翻译。
概述
本文介绍了 360DVO,这是首个针对 单目 360° 相机 的深度学习驱动的视觉里程计(VO)系统。通过学习畸变感知特征并将其集成到可微分的束调整管线中,作者实现了远超传统手工特征或光度方法的鲁棒性和精度——尤其在激烈运动和光照挑战的情况下。
关键贡献
- Distortion‑Aware Spherical Feature Extractor (DAS‑Feat) – 一个 CNN,学习在等距矩形 360° 图像上直接生成稀疏、抗畸变的特征块。
- Omnidirectional Differentiable Bundle Adjustment (ODBA) – 一种新颖的、端到端可训练的姿态估计模块,利用学习到的球面特征优化相机运动。
- Real‑world OVO benchmark – 新收集的手持和车载 360° 序列数据集,提供真实姿态真值,填补了现实评估资源的空白。
- State‑of‑the‑art performance – 在新基准和现有合成套件(TartanAir V2、360VO)上,360DVO 相比最强基线(360VO、OpenVSLAM)将鲁棒性提升约 ≈ 50 %,轨迹误差降低约 ≈ 37.5 %。
方法论
- 输入预处理 – 将原始等矩形帧输入轻量级 CNN。不同于标准平面特征网络,DAS‑Feat 融入了球面畸变映射,该映射告知网络像素密度随纬度的变化,使其能够关注在投影后仍保持信息量的区域。
- 稀疏特征选择 – 网络输出一组关键点位置及其描述子。由于特征是学习得到的,它们自然对 360° 图像极点附近的拉伸保持不变性。
- 全向束调整 – 将连续帧中选取的特征进行匹配,得到的对应关系输入 ODBA。该模块在单位球面上构建经典的束调整代价(重投影误差),并对相机姿态求导。整个流水线(DAS‑Feat + ODBA)可通过监督姿态损失和自监督光度一致性相结合进行端到端训练。
- 训练与推理 – 模型首先在合成 360° 数据集上进行预训练(此处可获得廉价的完美真值),随后在新的真实世界基准上微调,以弥合域差距。运行时,仅需执行 DAS‑Feat 的前向传播以及 ODBA 的少量 Gauss‑Newton 迭代,即可在现代 GPU 上实现实时性能。
Results & Findings
| 数据集 | 指标(RMSE % of trajectory) | 360DVO 与 360VO 对比 | 360DVO 与 OpenVSLAM 对比 |
|---|---|---|---|
| 实际 OVO 基准 | 0.42 % | +37.5 % 误差更低 | +45 % 误差更低 |
| TartanAir V2 | 0.38 % | +35 % | +40 % |
| 360VO(synthetic) | 0.45 % | +30 % | +38 % |
- 鲁棒性提升:在快速旋转(> 300 °/s)或强光照变化的序列中,失败率从约 22 %(基线)下降至 < 10 %。
- 特征质量:可视化显示 DAS‑Feat 将点集中在纹理丰富的区域(例如建筑边缘),并避免了被大幅拉伸的极地区域。
- 运行时长:在 RTX 3080 上,完整流水线对 1024 × 2048 等距矩形帧的处理速度约为 30 fps,媲美依赖仅 CPU 特征提取的经典 VO 流水线。
实际意义
- 机器人与自主导航 – 360°摄像头成本低廉,提供完整的情境感知。360DVO 在无需昂贵 LiDAR 的情况下实现可靠的位姿跟踪,因而对室内无人机、仓库机器人或低成本配送机器人具有吸引力。
- AR/VR 内容创作 – 精确的相机轨迹对于拼接 360° 视频或生成空间音频至关重要。即使操作员快速摇动相机,学习到的特征仍保持稳定,降低后期处理漂移。
- 测绘与检测 – 对于手持或车载检测装置(如管道、建筑工地),在 GPS 不可用的环境下,360DVO 能提供连续的里程计数据,直接输入 SLAM 后端。
- 边缘部署 – 由于特征提取器轻量且束调整步骤仅需少量矩阵求解,系统可以移植到嵌入式 GPU(Jetson、i.MX),实现设备端导航,无需依赖云端。
限制与未来工作
- Domain sensitivity – 虽然微调可以缓解,但模型仍然在极端天气(雨、雾)下表现不佳,这些天气会严重衰减 360° 图像的对比度。
- Scale ambiguity – 与任何单目视觉里程计一样,必须提供绝对尺度(例如来自 IMU 或已知物体尺寸)。整合惯性数据可以弥补这一缺口。
- Sparse feature reliance – 极度缺乏纹理的环境(例如长走廊)仍会导致特征匮乏;未来工作可探索与 DAS‑Feat 并行的密集、学习的光度损失。
- Benchmark breadth – 新的真实世界数据集侧重于城市和室内场景;扩展到户外高速车辆场景将进一步验证该方法。
360DVO 标志着在将 360° 视觉里程计实用于真实世界应用方面迈出的重要一步,它将深度特征学习的灵活性与经典束束调整的严谨性相结合。
作者
- Xiaopeng Guo
- Yinzhe Xu
- Huajian Huang
- Sai‑Kit Yeung
论文信息
- arXiv ID: 2601.02309v1
- 分类: cs.CV
- 出版日期: 2026年1月5日
- PDF: 下载 PDF