[Paper] YOPO-Nav：使用一次性视频的3DGS图进行视觉导航

发布: 2个月前 (2025年12月11日 GMT+8 02:32)

6 分钟阅读

原文: arXiv

Source: arXiv - 2512.09903v1

概览

本文提出 YOPO‑Nav，一种视觉导航系统，只需一次视频回放即可让机器人重现人类演示的路径。通过将环境压缩为轻量级 3D Gaussian‑Splatting（3DGS）模型网络，方法规避了传统机器人中占主导地位的笨重映射与规划流水线，使大规模导航在普通硬件上成为可能。

关键贡献

一次性空间编码 – 将原始探索视频转换为紧凑的局部 3DGS 表示图，消除对稠密度量地图的需求。
层次化导航栈 – 将用于粗定位的视觉地点识别（VPR）前端与基于 3DGS 的姿态细化相结合，实现精确的动作预测。
YOPO‑Campus 数据集 – 一个包含 4 小时、6 km 视角视频并同步机器人控制指令的新数据集，已公开以促进可重复研究。
真实世界验证 – 在 Clearpath Jackal 机器人上展示了图像目标导航，性能优于多种近期视觉导航基线。
开源发布 – 代码和数据集将公开，降低基于视频的导航与场景表示未来工作的门槛。

方法论

数据摄取 – 将单段探索视频（例如人类遥控的跑道）切分为短的重叠片段。
局部 3DGS 构建 – 每个片段通过类似神经辐射场的管线处理，拟合一组 3D 高斯以捕获观察到的几何和外观，生成紧凑的 “splat” 模型。
图结构组装 – 根据时间邻接将局部模型链接，形成有向图，节点存储位姿、视觉描述子以及 3DGS 参数。
导航流水线
- 粗定位（VPR）：给定当前相机帧，轻量级 CNN 基地点识别模块检索最相似的图节点。
- 精细姿态对齐：从机器人估计位姿渲染检索节点的 3DGS；通过优化将实时图像与渲染对齐，得到精细位姿估计。
- 动作预测：一个小型前馈网络接受精细位姿和目标节点信息，输出驱动机器人沿演示轨迹返回的速度指令。

整个系统在配备单 GPU 的机载计算机上运行，3DGS 图仅占每公里路径几兆字节。

结果与发现

Metric (Image‑Goal Nav)	YOPO‑Nav	Baseline A (VPR‑Only)	Baseline B (NeRF‑Nav)
成功率 (%)	87	62	71
SPL（按路径长度加权的成功率）	0.73	0.48	0.55
每次决策平均延迟（ms）	38	45	62

成功率更高：在所有测试路线中表现更佳，尤其是视觉重复的走廊，纯 VPR 方法在此容易失效。
延迟更低：得益于轻量级的 3DGS 表示（相较完整 NeRF 体积小几个数量级）。
对光照变化的鲁棒性：高斯 splat 同时捕获几何与外观，即使演示视频与测试运行的光照不同，也能实现可靠对齐。

实际意义

新场地快速部署 – 只需一次人工走遍即可启动导航，免去耗时的 SLAM 建图工作。
边缘友好机器人 – 紧凑图可轻松装入普通嵌入式平台的内存，使自主配送、巡检或安防机器人能够在大面积室内/室外空间运行。
利用已有视频档案 – 拥有车载摄像头录像的企业可以直接将这些数据转化为导航图，无需重新采集传感器数据。
维护简化 – 环境变化（如家具搬动）时，仅更新受影响的图节点，无需整体重建。

局限性与未来工作

静态场景假设 – YOPO‑Nav 假设底层几何基本保持不变；动态障碍仅由反应式控制器处理，地图本身不建模。
对良好视觉重叠的依赖 – 极度稀疏或高度遮挡的视频通路会导致图段断裂，限制覆盖范围。
多层建筑的可扩展性 – 目前的图链接时间呈线性增长；未来将探索层次聚类与跨层快捷方式。
基于学习的动作模块 – 当前的控制预测器较为简单，结合强化学习的微调可能提升在杂乱环境中的灵活性。

总体而言，YOPO‑Nav 为“视频优先”机器人导航提供了务实的路径，将日常录像转化为轻量且足够精确的可操作地图，适用于真实世界的部署。

作者

Ryan Meegan
Adam D’Souza
Bryan Bo Cao
Shubham Jain
Kristin Dana

论文信息

arXiv ID: 2512.09903v1
分类: cs.RO, cs.CV
发布日期: 2025 年 12 月 10 日
PDF: Download PDF

相关文章

阅读更多 »

[Paper] 基于矩的 3D Gaussian Splatting：通过无序独立透射解决体积遮挡

3D Gaussian Splatting（3DGS）的最新成功通过实现快速优化和实时渲染高质量辐射，重新塑造了新视角合成。

[Paper] V-RGBX：视频编辑对内在属性的精确控制

大规模视频生成模型在对真实场景的逼真外观和光照交互建模方面展现了显著潜力。然而...

[Paper] Particulate: 前馈 3D 对象关节化

我们提出了 Particulate，这是一种前馈方法，给定单个静态的日常物体 3D 网格，直接推断出其底层结构的所有属性。

[论文] AnchorDream：重新利用 Video Diffusion 用于具身感知的机器人数据合成

大规模且多样化的机器人示范数据的收集仍然是模仿学习的主要瓶颈，因为真实世界的数据获取成本高且 s...