[Paper] SCE-SLAM:通过场景坐标嵌入实现尺度一致的单目 SLAM
发布: (2026年1月15日 GMT+8 01:57)
7 min read
原文: arXiv
Source: arXiv - 2601.09665v1
概述
Monocular SLAM (Simultaneous Localization and Mapping) 让单摄像头能够重建三维场景并跟踪自身运动——这对从在智能手机上运行的 AR 应用到低功耗硬件上的 autonomous‑driving 系统等各种场景都至关重要。最大的问题一直是 scale drift(尺度漂移):在长视频序列中,估计的物体大小和距离会逐渐偏离真实值。全新的 SCE‑SLAM 系统通过学习 scene coordinate embeddings(场景坐标嵌入),提供全局、具尺度感知的参考,从而在不牺牲实时速度的前提下,使地图保持“正确的尺寸”。
关键贡献
- Scene Coordinate Embeddings (SCE): 在规范尺度下编码像素三维位置的块级描述符,端到端学习。
- Geometry‑Guided Aggregation: 一种新颖的注意力机制,利用三维空间邻近性在帧之间传播尺度信息,而不仅仅是时间相邻性。
- Scene‑Coordinate Bundle Adjustment: 显式的全局优化步骤,将当前姿态估计与学习得到的规范坐标关联,直接校正尺度漂移。
- Real‑time performance: 完整流水线在单个 GPU 上以约 36 FPS 运行,匹配或超越现有的单目 SLAM 系统。
- Strong empirical gains: 在 KITTI 上,绝对轨迹误差 (ATE) 相比之前的最新方法下降了 8.36 m,Waymo 和 vKITTI 数据集也有类似的提升。
方法论
- 特征提取与嵌入:
- 输入帧通过 CNN 处理,输出两个流: (a) 用于跟踪的传统视觉特征,和 (b) 场景坐标嵌入,为每个图像补丁预测在规范坐标系中的 3‑D 点。
- 几何引导的聚合:
- 系统不只从最近的关键帧聚合信息,而是构建一个 空间图,其中节点是补丁,边连接几何上相近的点(使用当前位姿估计)。
- 然后 几何调制注意力 模块让每个补丁从其邻居处借取尺度线索,有效地将可靠的尺度信息从较早、观测充分的地图部分传播出来。
- 场景坐标束调整 (SC‑BA):
- 预测的 3‑D 坐标作为 软约束 参与全局束调整。
- 优化器同时最小化重投影误差 以及 每个补丁预测坐标相对于规范参考的偏差,将整条轨迹拉回到正确的尺度。
- 回环闭合与地图更新:
- 检测到回环时,同样的 SC‑BA 步骤将回环段对齐到规范尺度,消除累计漂移。
所有组件均可微分,使网络能够在大规模驾驶数据集上端到端训练。
结果与发现
| 数据集 | 指标(越低越好) | 先前最佳 | SCE‑SLAM |
|---|---|---|---|
| KITTI | 绝对轨迹误差 (m) | 12.84 | 4.48 (‑8.36 m) |
| Waymo | ATE (m) | 9.21 | 3.97 |
| vKITTI | ATE (m) | 1.84 | 0.71 |
- 尺度一致性: 在最长约 10 km 的序列中,估计尺度保持在真实值的 2 % 以内,而基线方法的漂移超过 10 %。
- 速度: 整个流水线在 RTX 3080 上每秒处理 36 帧,性能可与 ORB‑SLAM2 相当,并快于大多数需要大量后处理的学习型 SLAM 系统。
- 鲁棒性: 几何引导的注意力机制帮助系统从快速运动或短暂遮挡中恢复,即使视觉特征稀疏,地图也能保持稳定。
实际影响
- AR/VR 在移动设备上: 开发者现在可以仅依赖单个后置摄像头实现持久的世界锚点,而无需定期手动重新校准。
- 自动驾驶车辆与无人机: 尺度一致的地图提供更可靠的距离估计,便于规划和避障,尤其适用于无法配备立体摄像头或激光雷达的平台。
- 仓库/工厂机器人: 低成本机器人能够在数天的运行期间保持精确的度量地图,简化库存追踪或路径规划等任务。
- 3‑D 制图服务基础设施: 处理互联网视频(例如街景服务)的公司可以生成度量准确的三维模型,而无需 GPS 规模的校正。
由于 SCE‑SLAM 是端到端且实时运行的,它可以轻松嵌入现有的单目 SLAM 流程,只需用提供的模型替换特征后端并启用 SC‑BA 模块,即可实现最小的工程工作量。
限制与未来工作
- 训练数据依赖性: 嵌入是在驾驶数据集上学习的;在室内或高度非结构化的环境中,若未进行额外微调,性能可能下降。
- GPU 要求: 实时速度是在高端 GPU 上演示的;嵌入式平台可能需要模型剪枝或量化。
- 动态对象: 当前系统假设场景大多是静态的;移动的对象可能会破坏规范坐标的预测。
- 未来方向: 作者建议将嵌入扩展以处理动态场景,探索适用于边缘设备的轻量级骨干网络,并融合语义线索(例如对象类别),以在挑战性条件下进一步稳定尺度。
作者
- Yuchen Wu
- Jiahe Li
- Xiaohan Yu
- Lina Yu
- Jin Zheng
- Xiao Bai
论文信息
- arXiv ID: 2601.09665v1
- 分类: cs.CV
- 出版时间: 2026年1月14日
- PDF: 下载 PDF