[Paper] YOPO-Nav:使用一次性视频的3DGS图进行视觉导航

发布: (2025年12月11日 GMT+8 02:32)
6 min read
原文: arXiv

Source: arXiv - 2512.09903v1

概览

本文提出 YOPO‑Nav,一种视觉导航系统,只需一次视频回放即可让机器人重现人类演示的路径。通过将环境压缩为轻量级 3D Gaussian‑Splatting(3DGS)模型网络,方法规避了传统机器人中占主导地位的笨重映射与规划流水线,使大规模导航在普通硬件上成为可能。

关键贡献

  • 一次性空间编码 – 将原始探索视频转换为紧凑的局部 3DGS 表示图,消除对稠密度量地图的需求。
  • 层次化导航栈 – 将用于粗定位的视觉地点识别(VPR)前端与基于 3DGS 的姿态细化相结合,实现精确的动作预测。
  • YOPO‑Campus 数据集 – 一个包含 4 小时、6 km 视角视频并同步机器人控制指令的新数据集,已公开以促进可重复研究。
  • 真实世界验证 – 在 Clearpath Jackal 机器人上展示了图像目标导航,性能优于多种近期视觉导航基线。
  • 开源发布 – 代码和数据集将公开,降低基于视频的导航与场景表示未来工作的门槛。

方法论

  1. 数据摄取 – 将单段探索视频(例如人类遥控的跑道)切分为短的重叠片段。
  2. 局部 3DGS 构建 – 每个片段通过类似神经辐射场的管线处理,拟合一组 3D 高斯以捕获观察到的几何和外观,生成紧凑的 “splat” 模型。
  3. 图结构组装 – 根据时间邻接将局部模型链接,形成有向图,节点存储位姿、视觉描述子以及 3DGS 参数。
  4. 导航流水线
    • 粗定位(VPR):给定当前相机帧,轻量级 CNN 基地点识别模块检索最相似的图节点。
    • 精细姿态对齐:从机器人估计位姿渲染检索节点的 3DGS;通过优化将实时图像与渲染对齐,得到精细位姿估计。
    • 动作预测:一个小型前馈网络接受精细位姿和目标节点信息,输出驱动机器人沿演示轨迹返回的速度指令。

整个系统在配备单 GPU 的机载计算机上运行,3DGS 图仅占每公里路径几兆字节。

结果与发现

Metric (Image‑Goal Nav)YOPO‑NavBaseline A (VPR‑Only)Baseline B (NeRF‑Nav)
成功率 (%)876271
SPL(按路径长度加权的成功率)0.730.480.55
每次决策平均延迟(ms)384562
  • 成功率更高:在所有测试路线中表现更佳,尤其是视觉重复的走廊,纯 VPR 方法在此容易失效。
  • 延迟更低:得益于轻量级的 3DGS 表示(相较完整 NeRF 体积小几个数量级)。
  • 对光照变化的鲁棒性:高斯 splat 同时捕获几何与外观,即使演示视频与测试运行的光照不同,也能实现可靠对齐。

实际意义

  • 新场地快速部署 – 只需一次人工走遍即可启动导航,免去耗时的 SLAM 建图工作。
  • 边缘友好机器人 – 紧凑图可轻松装入普通嵌入式平台的内存,使自主配送、巡检或安防机器人能够在大面积室内/室外空间运行。
  • 利用已有视频档案 – 拥有车载摄像头录像的企业可以直接将这些数据转化为导航图,无需重新采集传感器数据。
  • 维护简化 – 环境变化(如家具搬动)时,仅更新受影响的图节点,无需整体重建。

局限性与未来工作

  • 静态场景假设 – YOPO‑Nav 假设底层几何基本保持不变;动态障碍仅由反应式控制器处理,地图本身不建模。
  • 对良好视觉重叠的依赖 – 极度稀疏或高度遮挡的视频通路会导致图段断裂,限制覆盖范围。
  • 多层建筑的可扩展性 – 目前的图链接时间呈线性增长;未来将探索层次聚类与跨层快捷方式。
  • 基于学习的动作模块 – 当前的控制预测器较为简单,结合强化学习的微调可能提升在杂乱环境中的灵活性。

总体而言,YOPO‑Nav 为“视频优先”机器人导航提供了务实的路径,将日常录像转化为轻量且足够精确的可操作地图,适用于真实世界的部署。

作者

  • Ryan Meegan
  • Adam D’Souza
  • Bryan Bo Cao
  • Shubham Jain
  • Kristin Dana

论文信息

  • arXiv ID: 2512.09903v1
  • 分类: cs.RO, cs.CV
  • 发布日期: 2025 年 12 月 10 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »