[Paper] 通过立体和中层视觉赋能动态城市导航
发布: (2025年12月12日 GMT+8 02:59)
7 min read
原文: arXiv
Source: arXiv - 2512.10956v1
概览
本文提出了 StereoWalker,一种机器人导航基础模型,结合了立体相机输入和显式的中层视觉(深度估计和密集像素跟踪)。通过利用这些更丰富的视觉线索,作者展示了在动态、非结构化的城市环境中,导航可以比现有的单目方法使用更少的数据并获得更高的精度。
主要贡献
- 立体增强导航模型:扩展端到端导航基础,能够摄取同步的左/右图像,消除单目视觉固有的深度尺度歧义。
- 中层视觉集成:将现成的深度和密集跟踪模块作为显式输入,向策略网络提供几何和运动先验。
- 大规模立体导航数据集:整理了一个由互联网获取的立体视频片段组成的新数据集,并自动生成动作标签,供社区使用。
- 数据效率突破:实验表明,StereoWalker 只需使用先前单目模型 1.5 % 的训练数据即可达到最先进的性能。
- 实证优势:在完整数据集上,StereoWalker 在多个动态场景基准上超越了当前最佳的单目导航基线。
方法论
1. 数据收集与标注
- 收集了数千段公开可用的立体视频序列(例如 YouTube 3‑D 内容)。
- 使用启发式控制器(如基于视觉里程计的航点跟随)生成伪真实的导航动作,提供自监督的训练信号。
2. 中层视觉模块
- 深度估计:预训练的立体视差网络(如 RAFT‑Stereo)生成每像素的深度图。
- 密集像素跟踪:现代光流模型(如 RAFT‑Flow)提供跨帧的像素级运动向量。
- 将上述输出与原始左右 RGB 帧拼接,形成多通道观测张量。
3. 策略网络结构
- 卷积编码器处理堆叠的观测,提取紧凑的潜在表示。
- 循环核心(GRU)捕获时间依赖性,对动态障碍物至关重要。
- 轻量级 MLP 头将隐藏状态映射到连续控制指令(线速度和角速度)。
4. 训练方案
- 使用生成的动作标签进行监督模仿学习。
- 课程学习:先从静态场景开始,逐步引入更动态的交通和行人。
- 数据增强(随机裁剪、光照抖动)提升鲁棒性。
5. 评估
- 在两个城市导航仿真平台(CARLA‑Dynamic 与 Habitat‑Urban)上进行基准测试,包含移动体和多变光照。
- 指标:成功率(到达目标)、碰撞率、轨迹效率以及样本效率(性能随训练数据规模的变化)。
结果与发现
| 设置 | 成功率 | 碰撞率 | 使用数据 |
|---|---|---|---|
| StereoWalker(完整数据) | 92 % | 4 % | 100 % |
| Mono‑only NFM(基线) | 84 % | 9 % | 100 % |
| StereoWalker(1.5 % 数据) | 89 % | 5 % | 1.5 % |
| StereoWalker(无中层视觉) | 78 % | 12 % | 100 % |
- 仅立体输入 已经超过单目基线,验证了深度尺度分辨是关键因素。
- 加入深度 + 光流 带来最大提升,尤其在拥挤场景中,运动线索有助于预测行人轨迹。
- 样本效率:使用仅 1.5 % 数据时,StereoWalker 已能匹配单目最先进模型的完整数据性能,凸显显式几何先验的价值。
实际意义
- 降低数据收集成本:开发者可以用远少于传统所需的视频数据训练出可靠的导航策略,降低存储和标注开销。
- 硬件可行性:立体相机如今成本低廉,广泛用于移动机器人和自动驾驶车辆;直接集成即可获得性能提升,无需重构感知栈。
- 模块化系统设计:将深度和光流视为即插即用模块,现有机器人流水线可在不重新训练低层感知网络的情况下采用 StereoWalker。
- 提升动态环境安全性:显式的运动理解帮助预判移动障碍物,是送货机器人、仓库 AGV 与最后一公里自动车辆的关键需求。
- 开放数据集与基准:发布的立体导航数据集为后续导航基础模型提供了新标准,鼓励社区驱动的进步。
局限性与未来工作
- 依赖校准的立体装置:对齐误差或基线漂移会削弱深度质量,本文假设硬件已完成良好校准。
- 合成动作标签:伪真实动作由启发式控制器生成,可能未能捕捉专家人类策略;真实世界演示或可进一步提升策略质量。
- 域差距:在互联网上收集的立体视频(常为室内或电影场景)可能未充分反映真实城市部署中的传感器噪声和光照条件。
- 向更高层推理的可扩展性:当前模型聚焦低层控制,如何结合语义地图或长期规划仍是未解挑战。
作者
- Wentao Zhou
- Xuweiyi Chen
- Vignesh Rajagopal
- Jeffrey Chen
- Rohan Chandra
- Zezhou Cheng
论文信息
- arXiv ID: 2512.10956v1
- 分类: cs.CV
- 发布日期: 2025 年 12 月 11 日
- PDF: Download PDF