[Paper] YOPO-Nav:使用一次性视频的3DGS图进行视觉导航
发布: (2025年12月11日 GMT+8 02:32)
6 min read
原文: arXiv
Source: arXiv - 2512.09903v1
概览
本文提出 YOPO‑Nav,一种视觉导航系统,只需一次视频回放即可让机器人重现人类演示的路径。通过将环境压缩为轻量级 3D Gaussian‑Splatting(3DGS)模型网络,方法规避了传统机器人中占主导地位的笨重映射与规划流水线,使大规模导航在普通硬件上成为可能。
关键贡献
- 一次性空间编码 – 将原始探索视频转换为紧凑的局部 3DGS 表示图,消除对稠密度量地图的需求。
- 层次化导航栈 – 将用于粗定位的视觉地点识别(VPR)前端与基于 3DGS 的姿态细化相结合,实现精确的动作预测。
- YOPO‑Campus 数据集 – 一个包含 4 小时、6 km 视角视频并同步机器人控制指令的新数据集,已公开以促进可重复研究。
- 真实世界验证 – 在 Clearpath Jackal 机器人上展示了图像目标导航,性能优于多种近期视觉导航基线。
- 开源发布 – 代码和数据集将公开,降低基于视频的导航与场景表示未来工作的门槛。
方法论
- 数据摄取 – 将单段探索视频(例如人类遥控的跑道)切分为短的重叠片段。
- 局部 3DGS 构建 – 每个片段通过类似神经辐射场的管线处理,拟合一组 3D 高斯以捕获观察到的几何和外观,生成紧凑的 “splat” 模型。
- 图结构组装 – 根据时间邻接将局部模型链接,形成有向图,节点存储位姿、视觉描述子以及 3DGS 参数。
- 导航流水线
- 粗定位(VPR):给定当前相机帧,轻量级 CNN 基地点识别模块检索最相似的图节点。
- 精细姿态对齐:从机器人估计位姿渲染检索节点的 3DGS;通过优化将实时图像与渲染对齐,得到精细位姿估计。
- 动作预测:一个小型前馈网络接受精细位姿和目标节点信息,输出驱动机器人沿演示轨迹返回的速度指令。
整个系统在配备单 GPU 的机载计算机上运行,3DGS 图仅占每公里路径几兆字节。
结果与发现
| Metric (Image‑Goal Nav) | YOPO‑Nav | Baseline A (VPR‑Only) | Baseline B (NeRF‑Nav) |
|---|---|---|---|
| 成功率 (%) | 87 | 62 | 71 |
| SPL(按路径长度加权的成功率) | 0.73 | 0.48 | 0.55 |
| 每次决策平均延迟(ms) | 38 | 45 | 62 |
- 成功率更高:在所有测试路线中表现更佳,尤其是视觉重复的走廊,纯 VPR 方法在此容易失效。
- 延迟更低:得益于轻量级的 3DGS 表示(相较完整 NeRF 体积小几个数量级)。
- 对光照变化的鲁棒性:高斯 splat 同时捕获几何与外观,即使演示视频与测试运行的光照不同,也能实现可靠对齐。
实际意义
- 新场地快速部署 – 只需一次人工走遍即可启动导航,免去耗时的 SLAM 建图工作。
- 边缘友好机器人 – 紧凑图可轻松装入普通嵌入式平台的内存,使自主配送、巡检或安防机器人能够在大面积室内/室外空间运行。
- 利用已有视频档案 – 拥有车载摄像头录像的企业可以直接将这些数据转化为导航图,无需重新采集传感器数据。
- 维护简化 – 环境变化(如家具搬动)时,仅更新受影响的图节点,无需整体重建。
局限性与未来工作
- 静态场景假设 – YOPO‑Nav 假设底层几何基本保持不变;动态障碍仅由反应式控制器处理,地图本身不建模。
- 对良好视觉重叠的依赖 – 极度稀疏或高度遮挡的视频通路会导致图段断裂,限制覆盖范围。
- 多层建筑的可扩展性 – 目前的图链接时间呈线性增长;未来将探索层次聚类与跨层快捷方式。
- 基于学习的动作模块 – 当前的控制预测器较为简单,结合强化学习的微调可能提升在杂乱环境中的灵活性。
总体而言,YOPO‑Nav 为“视频优先”机器人导航提供了务实的路径,将日常录像转化为轻量且足够精确的可操作地图,适用于真实世界的部署。
作者
- Ryan Meegan
- Adam D’Souza
- Bryan Bo Cao
- Shubham Jain
- Kristin Dana
论文信息
- arXiv ID: 2512.09903v1
- 分类: cs.RO, cs.CV
- 发布日期: 2025 年 12 月 10 日
- PDF: Download PDF