[Paper] 360DVO: 深度视觉里程计用于单目360度相机

发布: 2周前 (2026年1月6日 GMT+8 01:52)

7 min read

原文: arXiv

Source: arXiv - 2601.02309v1

请提供您希望翻译的具体文本内容，我将按照要求保留源链接并进行简体中文翻译。

概述

本文介绍了 360DVO，这是首个针对 单目 360° 相机 的深度学习驱动的视觉里程计（VO）系统。通过学习畸变感知特征并将其集成到可微分的束调整管线中，作者实现了远超传统手工特征或光度方法的鲁棒性和精度——尤其在激烈运动和光照挑战的情况下。

Distortion‑Aware Spherical Feature Extractor (DAS‑Feat) – 一个 CNN，学习在等距矩形 360° 图像上直接生成稀疏、抗畸变的特征块。
Omnidirectional Differentiable Bundle Adjustment (ODBA) – 一种新颖的、端到端可训练的姿态估计模块，利用学习到的球面特征优化相机运动。
Real‑world OVO benchmark – 新收集的手持和车载 360° 序列数据集，提供真实姿态真值，填补了现实评估资源的空白。
State‑of‑the‑art performance – 在新基准和现有合成套件（TartanAir V2、360VO）上，360DVO 相比最强基线（360VO、OpenVSLAM）将鲁棒性提升约 ≈ 50 %，轨迹误差降低约 ≈ 37.5 %。

输入预处理 – 将原始等矩形帧输入轻量级 CNN。不同于标准平面特征网络，DAS‑Feat 融入了球面畸变映射，该映射告知网络像素密度随纬度的变化，使其能够关注在投影后仍保持信息量的区域。
稀疏特征选择 – 网络输出一组关键点位置及其描述子。由于特征是学习得到的，它们自然对 360° 图像极点附近的拉伸保持不变性。
全向束调整 – 将连续帧中选取的特征进行匹配，得到的对应关系输入 ODBA。该模块在单位球面上构建经典的束调整代价（重投影误差），并对相机姿态求导。整个流水线（DAS‑Feat + ODBA）可通过监督姿态损失和自监督光度一致性相结合进行端到端训练。
训练与推理 – 模型首先在合成 360° 数据集上进行预训练（此处可获得廉价的完美真值），随后在新的真实世界基准上微调，以弥合域差距。运行时，仅需执行 DAS‑Feat 的前向传播以及 ODBA 的少量 Gauss‑Newton 迭代，即可在现代 GPU 上实现实时性能。

数据集	指标（RMSE % of trajectory）	360DVO 与 360VO 对比	360DVO 与 OpenVSLAM 对比
实际 OVO 基准	0.42 %	+37.5 % 误差更低	+45 % 误差更低
TartanAir V2	0.38 %	+35 %	+40 %
360VO（synthetic）	0.45 %	+30 %	+38 %

鲁棒性提升：在快速旋转（> 300 °/s）或强光照变化的序列中，失败率从约 22 %（基线）下降至 < 10 %。
特征质量：可视化显示 DAS‑Feat 将点集中在纹理丰富的区域（例如建筑边缘），并避免了被大幅拉伸的极地区域。
运行时长：在 RTX 3080 上，完整流水线对 1024 × 2048 等距矩形帧的处理速度约为 30 fps，媲美依赖仅 CPU 特征提取的经典 VO 流水线。

机器人与自主导航 – 360°摄像头成本低廉，提供完整的情境感知。360DVO 在无需昂贵 LiDAR 的情况下实现可靠的位姿跟踪，因而对室内无人机、仓库机器人或低成本配送机器人具有吸引力。
AR/VR 内容创作 – 精确的相机轨迹对于拼接 360° 视频或生成空间音频至关重要。即使操作员快速摇动相机，学习到的特征仍保持稳定，降低后期处理漂移。
测绘与检测 – 对于手持或车载检测装置（如管道、建筑工地），在 GPS 不可用的环境下，360DVO 能提供连续的里程计数据，直接输入 SLAM 后端。
边缘部署 – 由于特征提取器轻量且束调整步骤仅需少量矩阵求解，系统可以移植到嵌入式 GPU（Jetson、i.MX），实现设备端导航，无需依赖云端。

Domain sensitivity – 虽然微调可以缓解，但模型仍然在极端天气（雨、雾）下表现不佳，这些天气会严重衰减 360° 图像的对比度。
Scale ambiguity – 与任何单目视觉里程计一样，必须提供绝对尺度（例如来自 IMU 或已知物体尺寸）。整合惯性数据可以弥补这一缺口。
Sparse feature reliance – 极度缺乏纹理的环境（例如长走廊）仍会导致特征匮乏；未来工作可探索与 DAS‑Feat 并行的密集、学习的光度损失。
Benchmark breadth – 新的真实世界数据集侧重于城市和室内场景；扩展到户外高速车辆场景将进一步验证该方法。

360DVO 标志着在将 360° 视觉里程计实用于真实世界应用方面迈出的重要一步，它将深度特征学习的灵活性与经典束束调整的严谨性相结合。