[Paper] 360DVO: 深度视觉里程计用于单目360度相机

发布: (2026年1月6日 GMT+8 01:52)
7 min read
原文: arXiv

Source: arXiv - 2601.02309v1

请提供您希望翻译的具体文本内容,我将按照要求保留源链接并进行简体中文翻译。

概述

本文介绍了 360DVO,这是首个针对 单目 360° 相机 的深度学习驱动的视觉里程计(VO)系统。通过学习畸变感知特征并将其集成到可微分的束调整管线中,作者实现了远超传统手工特征或光度方法的鲁棒性和精度——尤其在激烈运动和光照挑战的情况下。

关键贡献

  • Distortion‑Aware Spherical Feature Extractor (DAS‑Feat) – 一个 CNN,学习在等距矩形 360° 图像上直接生成稀疏、抗畸变的特征块。
  • Omnidirectional Differentiable Bundle Adjustment (ODBA) – 一种新颖的、端到端可训练的姿态估计模块,利用学习到的球面特征优化相机运动。
  • Real‑world OVO benchmark – 新收集的手持和车载 360° 序列数据集,提供真实姿态真值,填补了现实评估资源的空白。
  • State‑of‑the‑art performance – 在新基准和现有合成套件(TartanAir V2、360VO)上,360DVO 相比最强基线(360VO、OpenVSLAM)将鲁棒性提升约 ≈ 50 %,轨迹误差降低约 ≈ 37.5 %

方法论

  1. 输入预处理 – 将原始等矩形帧输入轻量级 CNN。不同于标准平面特征网络,DAS‑Feat 融入了球面畸变映射,该映射告知网络像素密度随纬度的变化,使其能够关注在投影后仍保持信息量的区域。
  2. 稀疏特征选择 – 网络输出一组关键点位置及其描述子。由于特征是学习得到的,它们自然对 360° 图像极点附近的拉伸保持不变性。
  3. 全向束调整 – 将连续帧中选取的特征进行匹配,得到的对应关系输入 ODBA。该模块在单位球面上构建经典的束调整代价(重投影误差),并对相机姿态求导。整个流水线(DAS‑Feat + ODBA)可通过监督姿态损失和自监督光度一致性相结合进行端到端训练。
  4. 训练与推理 – 模型首先在合成 360° 数据集上进行预训练(此处可获得廉价的完美真值),随后在新的真实世界基准上微调,以弥合域差距。运行时,仅需执行 DAS‑Feat 的前向传播以及 ODBA 的少量 Gauss‑Newton 迭代,即可在现代 GPU 上实现实时性能。

Results & Findings

数据集指标(RMSE % of trajectory)360DVO 与 360VO 对比360DVO 与 OpenVSLAM 对比
实际 OVO 基准0.42 %+37.5 % 误差更低+45 % 误差更低
TartanAir V20.38 %+35 %+40 %
360VO(synthetic)0.45 %+30 %+38 %
  • 鲁棒性提升:在快速旋转(> 300 °/s)或强光照变化的序列中,失败率从约 22 %(基线)下降至 < 10 %。
  • 特征质量:可视化显示 DAS‑Feat 将点集中在纹理丰富的区域(例如建筑边缘),并避免了被大幅拉伸的极地区域。
  • 运行时长:在 RTX 3080 上,完整流水线对 1024 × 2048 等距矩形帧的处理速度约为 30 fps,媲美依赖仅 CPU 特征提取的经典 VO 流水线。

实际意义

  • 机器人与自主导航 – 360°摄像头成本低廉,提供完整的情境感知。360DVO 在无需昂贵 LiDAR 的情况下实现可靠的位姿跟踪,因而对室内无人机、仓库机器人或低成本配送机器人具有吸引力。
  • AR/VR 内容创作 – 精确的相机轨迹对于拼接 360° 视频或生成空间音频至关重要。即使操作员快速摇动相机,学习到的特征仍保持稳定,降低后期处理漂移。
  • 测绘与检测 – 对于手持或车载检测装置(如管道、建筑工地),在 GPS 不可用的环境下,360DVO 能提供连续的里程计数据,直接输入 SLAM 后端。
  • 边缘部署 – 由于特征提取器轻量且束调整步骤仅需少量矩阵求解,系统可以移植到嵌入式 GPU(Jetson、i.MX),实现设备端导航,无需依赖云端。

限制与未来工作

  • Domain sensitivity – 虽然微调可以缓解,但模型仍然在极端天气(雨、雾)下表现不佳,这些天气会严重衰减 360° 图像的对比度。
  • Scale ambiguity – 与任何单目视觉里程计一样,必须提供绝对尺度(例如来自 IMU 或已知物体尺寸)。整合惯性数据可以弥补这一缺口。
  • Sparse feature reliance – 极度缺乏纹理的环境(例如长走廊)仍会导致特征匮乏;未来工作可探索与 DAS‑Feat 并行的密集、学习的光度损失。
  • Benchmark breadth – 新的真实世界数据集侧重于城市和室内场景;扩展到户外高速车辆场景将进一步验证该方法。

360DVO 标志着在将 360° 视觉里程计实用于真实世界应用方面迈出的重要一步,它将深度特征学习的灵活性与经典束束调整的严谨性相结合。

作者

  • Xiaopeng Guo
  • Yinzhe Xu
  • Huajian Huang
  • Sai‑Kit Yeung

论文信息

  • arXiv ID: 2601.02309v1
  • 分类: cs.CV
  • 出版日期: 2026年1月5日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »