[Paper] 通过立体和中层视觉赋能动态城市导航

发布: 1个月前 (2025年12月12日 GMT+8 02:59)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.10956v1

概览

本文提出了 StereoWalker，一种机器人导航基础模型，结合了立体相机输入和显式的中层视觉（深度估计和密集像素跟踪）。通过利用这些更丰富的视觉线索，作者展示了在动态、非结构化的城市环境中，导航可以比现有的单目方法使用更少的数据并获得更高的精度。

主要贡献

立体增强导航模型：扩展端到端导航基础，能够摄取同步的左/右图像，消除单目视觉固有的深度尺度歧义。
中层视觉集成：将现成的深度和密集跟踪模块作为显式输入，向策略网络提供几何和运动先验。
大规模立体导航数据集：整理了一个由互联网获取的立体视频片段组成的新数据集，并自动生成动作标签，供社区使用。
数据效率突破：实验表明，StereoWalker 只需使用先前单目模型 1.5 % 的训练数据即可达到最先进的性能。
实证优势：在完整数据集上，StereoWalker 在多个动态场景基准上超越了当前最佳的单目导航基线。

方法论

1. 数据收集与标注

收集了数千段公开可用的立体视频序列（例如 YouTube 3‑D 内容）。
使用启发式控制器（如基于视觉里程计的航点跟随）生成伪真实的导航动作，提供自监督的训练信号。

2. 中层视觉模块

深度估计：预训练的立体视差网络（如 RAFT‑Stereo）生成每像素的深度图。
密集像素跟踪：现代光流模型（如 RAFT‑Flow）提供跨帧的像素级运动向量。
将上述输出与原始左右 RGB 帧拼接，形成多通道观测张量。

3. 策略网络结构

卷积编码器处理堆叠的观测，提取紧凑的潜在表示。
循环核心（GRU）捕获时间依赖性，对动态障碍物至关重要。
轻量级 MLP 头将隐藏状态映射到连续控制指令（线速度和角速度）。

4. 训练方案

使用生成的动作标签进行监督模仿学习。
课程学习：先从静态场景开始，逐步引入更动态的交通和行人。
数据增强（随机裁剪、光照抖动）提升鲁棒性。

5. 评估

在两个城市导航仿真平台（CARLA‑Dynamic 与 Habitat‑Urban）上进行基准测试，包含移动体和多变光照。
指标：成功率（到达目标）、碰撞率、轨迹效率以及样本效率（性能随训练数据规模的变化）。

结果与发现

设置	成功率	碰撞率	使用数据
StereoWalker（完整数据）	92 %	4 %	100 %
Mono‑only NFM（基线）	84 %	9 %	100 %
StereoWalker（1.5 % 数据）	89 %	5 %	1.5 %
StereoWalker（无中层视觉）	78 %	12 %	100 %

仅立体输入 已经超过单目基线，验证了深度尺度分辨是关键因素。
加入深度 + 光流 带来最大提升，尤其在拥挤场景中，运动线索有助于预测行人轨迹。
样本效率：使用仅 1.5 % 数据时，StereoWalker 已能匹配单目最先进模型的完整数据性能，凸显显式几何先验的价值。

实际意义

降低数据收集成本：开发者可以用远少于传统所需的视频数据训练出可靠的导航策略，降低存储和标注开销。
硬件可行性：立体相机如今成本低廉，广泛用于移动机器人和自动驾驶车辆；直接集成即可获得性能提升，无需重构感知栈。
模块化系统设计：将深度和光流视为即插即用模块，现有机器人流水线可在不重新训练低层感知网络的情况下采用 StereoWalker。
提升动态环境安全性：显式的运动理解帮助预判移动障碍物，是送货机器人、仓库 AGV 与最后一公里自动车辆的关键需求。
开放数据集与基准：发布的立体导航数据集为后续导航基础模型提供了新标准，鼓励社区驱动的进步。

局限性与未来工作

依赖校准的立体装置：对齐误差或基线漂移会削弱深度质量，本文假设硬件已完成良好校准。
合成动作标签：伪真实动作由启发式控制器生成，可能未能捕捉专家人类策略；真实世界演示或可进一步提升策略质量。
域差距：在互联网上收集的立体视频（常为室内或电影场景）可能未充分反映真实城市部署中的传感器噪声和光照条件。
向更高层推理的可扩展性：当前模型聚焦低层控制，如何结合语义地图或长期规划仍是未解挑战。

作者

Wentao Zhou
Xuweiyi Chen
Vignesh Rajagopal
Jeffrey Chen
Rohan Chandra
Zezhou Cheng

论文信息

arXiv ID: 2512.10956v1
分类: cs.CV
发布日期: 2025 年 12 月 11 日
PDF: Download PDF

相关文章

阅读更多 »

[Paper] 基于矩的 3D Gaussian Splatting：通过无序独立透射解决体积遮挡

3D Gaussian Splatting（3DGS）的最新成功通过实现快速优化和实时渲染高质量辐射，重新塑造了新视角合成。

[Paper] V-RGBX：视频编辑对内在属性的精确控制

大规模视频生成模型在对真实场景的逼真外观和光照交互建模方面展现了显著潜力。然而...

[Paper] Particulate: 前馈 3D 对象关节化

我们提出了 Particulate，这是一种前馈方法，给定单个静态的日常物体 3D 网格，直接推断出其底层结构的所有属性。

[论文] AnchorDream：重新利用 Video Diffusion 用于具身感知的机器人数据合成

大规模且多样化的机器人示范数据的收集仍然是模仿学习的主要瓶颈，因为真实世界的数据获取成本高且 s...