[Paper] 通过立体和中层视觉赋能动态城市导航

发布: (2025年12月12日 GMT+8 02:59)
7 min read
原文: arXiv

Source: arXiv - 2512.10956v1

概览

本文提出了 StereoWalker,一种机器人导航基础模型,结合了立体相机输入和显式的中层视觉(深度估计和密集像素跟踪)。通过利用这些更丰富的视觉线索,作者展示了在动态、非结构化的城市环境中,导航可以比现有的单目方法使用更少的数据并获得更高的精度。

主要贡献

  • 立体增强导航模型:扩展端到端导航基础,能够摄取同步的左/右图像,消除单目视觉固有的深度尺度歧义。
  • 中层视觉集成:将现成的深度和密集跟踪模块作为显式输入,向策略网络提供几何和运动先验。
  • 大规模立体导航数据集:整理了一个由互联网获取的立体视频片段组成的新数据集,并自动生成动作标签,供社区使用。
  • 数据效率突破:实验表明,StereoWalker 只需使用先前单目模型 1.5 % 的训练数据即可达到最先进的性能。
  • 实证优势:在完整数据集上,StereoWalker 在多个动态场景基准上超越了当前最佳的单目导航基线。

方法论

1. 数据收集与标注

  • 收集了数千段公开可用的立体视频序列(例如 YouTube 3‑D 内容)。
  • 使用启发式控制器(如基于视觉里程计的航点跟随)生成伪真实的导航动作,提供自监督的训练信号。

2. 中层视觉模块

  • 深度估计:预训练的立体视差网络(如 RAFT‑Stereo)生成每像素的深度图。
  • 密集像素跟踪:现代光流模型(如 RAFT‑Flow)提供跨帧的像素级运动向量。
  • 将上述输出与原始左右 RGB 帧拼接,形成多通道观测张量。

3. 策略网络结构

  • 卷积编码器处理堆叠的观测,提取紧凑的潜在表示。
  • 循环核心(GRU)捕获时间依赖性,对动态障碍物至关重要。
  • 轻量级 MLP 头将隐藏状态映射到连续控制指令(线速度和角速度)。

4. 训练方案

  • 使用生成的动作标签进行监督模仿学习。
  • 课程学习:先从静态场景开始,逐步引入更动态的交通和行人。
  • 数据增强(随机裁剪、光照抖动)提升鲁棒性。

5. 评估

  • 在两个城市导航仿真平台(CARLA‑Dynamic 与 Habitat‑Urban)上进行基准测试,包含移动体和多变光照。
  • 指标:成功率(到达目标)、碰撞率、轨迹效率以及样本效率(性能随训练数据规模的变化)。

结果与发现

设置成功率碰撞率使用数据
StereoWalker(完整数据)92 %4 %100 %
Mono‑only NFM(基线)84 %9 %100 %
StereoWalker(1.5 % 数据)89 %5 %1.5 %
StereoWalker(无中层视觉)78 %12 %100 %
  • 仅立体输入 已经超过单目基线,验证了深度尺度分辨是关键因素。
  • 加入深度 + 光流 带来最大提升,尤其在拥挤场景中,运动线索有助于预测行人轨迹。
  • 样本效率:使用仅 1.5 % 数据时,StereoWalker 已能匹配单目最先进模型的完整数据性能,凸显显式几何先验的价值。

实际意义

  • 降低数据收集成本:开发者可以用远少于传统所需的视频数据训练出可靠的导航策略,降低存储和标注开销。
  • 硬件可行性:立体相机如今成本低廉,广泛用于移动机器人和自动驾驶车辆;直接集成即可获得性能提升,无需重构感知栈。
  • 模块化系统设计:将深度和光流视为即插即用模块,现有机器人流水线可在不重新训练低层感知网络的情况下采用 StereoWalker。
  • 提升动态环境安全性:显式的运动理解帮助预判移动障碍物,是送货机器人、仓库 AGV 与最后一公里自动车辆的关键需求。
  • 开放数据集与基准:发布的立体导航数据集为后续导航基础模型提供了新标准,鼓励社区驱动的进步。

局限性与未来工作

  • 依赖校准的立体装置:对齐误差或基线漂移会削弱深度质量,本文假设硬件已完成良好校准。
  • 合成动作标签:伪真实动作由启发式控制器生成,可能未能捕捉专家人类策略;真实世界演示或可进一步提升策略质量。
  • 域差距:在互联网上收集的立体视频(常为室内或电影场景)可能未充分反映真实城市部署中的传感器噪声和光照条件。
  • 向更高层推理的可扩展性:当前模型聚焦低层控制,如何结合语义地图或长期规划仍是未解挑战。

作者

  • Wentao Zhou
  • Xuweiyi Chen
  • Vignesh Rajagopal
  • Jeffrey Chen
  • Rohan Chandra
  • Zezhou Cheng

论文信息

  • arXiv ID: 2512.10956v1
  • 分类: cs.CV
  • 发布日期: 2025 年 12 月 11 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »