[Paper] 野外徒步:面向类人机器人的可扩展感知跑酷框架
发布: (2026年1月13日 GMT+8 00:50)
6 min read
原文: arXiv
Source: arXiv - 2601.07718v1
概述
本文介绍了 “Hiking in the Wild”,这是一种全新的端到端强化学习(RL)框架,使全尺寸类人机器人能够在崎岖、非结构化的地形上行进,而无需依赖外部状态估计器(例如 SLAM)。通过将原始深度图像和关节级别的本体感受数据直接输入单阶段策略网络,系统能够以最高 2.5 m/s 的速度行走,并在边缘避免灾难性滑倒——这一能力让类人机器人的跑酷更接近真实世界的部署。
关键贡献
- 可扩展感知跑酷管线,将原始深度 + 本体感知映射到单次 RL 过程中的关节力矩。
- 落脚点安全机制,结合 Terrain Edge Detection 与 Foot Volume Points,自动剔除不安全的落脚点并防止滑动。
- Flat‑Patch Sampling 策略,在训练期间生成真实的导航目标,消除奖励作弊并提升策略鲁棒性。
- 无需外部状态估计:策略仅依赖机载传感器,规避了基于 LiDAR 映射常见的漂移问题。
- 开源训练与部署代码,实现可重复的研究并快速迁移到其他类人平台。
方法论
- 传感器输入 – 机器人实时传输前视深度图(≈ 640×480)以及关节位置/速度向量。不使用全局位姿或地图。
- 神经策略架构 – 轻量级 CNN 从深度图中提取地形几何信息,另一个 MLP 处理本体感知。两者的嵌入向量拼接后送入最终的 MLP,输出期望的关节扭矩。
- 安全层 – 在执行扭矩指令之前,地形边缘检测器(对深度图进行快速边缘滤波)会识别潜在的跌落区域。脚部体积点(预先计算的安全落脚体积)会被交叉检查;如果拟议的落脚点位于安全体积之外,指令将被裁剪为后备姿态。
- 训练循环 – 单阶段强化学习算法(PPO)在高保真物理仿真器中运行,仿真环境由程序化生成的地形填充。平坦区域采样模块仅在局部平坦区域上采样目标落脚点,确保奖励函数反映可行的导航,而不是利用仿真漏洞。
- 域随机化 – 对视觉噪声、传感器延迟和执行器动力学进行随机化,以弥合仿真到真实的差距。
结果与发现
| 指标 | 仿真 | 真实世界(全尺寸类人机器人) |
|---|---|---|
| 不平坦地形的最高速度 | 2.8 m/s | 2.5 m/s |
| 30 米障碍赛的成功率 | 96 % | 92 % |
| 每100 米的平均滑动事件数 | 0.3 | 0.4 |
| 策略延迟(传感器 → 扭矩) | 12 ms | 15 ms |
- 安全层将与边缘相关的跌倒减少了 ≈ 85 %,相较于未使用安全层的基线强化学习策略。
- 平面采样消除了奖励作弊行为(例如利用模拟器物理的 “jump‑and‑land” 技巧),并提升了对未见地形类型的泛化能力。
- 实地测试展示了在岩石坡坡、松散碎石和狭窄台阶上稳定的运动——这些条件通常会导致基于映射的控制器失效。
实际意义
- 机器人开发者 现在可以在不构建完整 SLAM 堆栈的情况下原型化坚固的人形导航,从而缩短开发时间并降低硬件成本。
- 安全机制是 模块化 的;它们可以直接嵌入现有的四足或轮式机器人强化学习策略中,以实现边缘感知。
- 行业用例 如灾区检查、户外配送或建筑工地协助变得更可行,因为机器人能够在不可预测的地面上快速移动(≈ 2.5 m/s)。
- 开源代码和单阶段架构使得将该方法 移植 到其他平台(例如 Boston Dynamics Atlas、NASA Valkyrie)变得简便,只需最少的传感器更改。
限制与未来工作
- 当前系统假设使用 前向深度传感器;若要实现真正的全向导航,需要侧视或 360° 感知。
- 虽然领域随机化可以缓解仿真到真实的差距,但极端天气条件(大雨、降雪)尚未进行评估。
- 该策略仍然依赖 稠密深度数据,这对低功耗机器人来说可能带宽负担较重;未来工作可以探索稀疏 LiDAR 或事件相机输入。
- 将框架扩展到 多机器人协同 或动态障碍物(例如移动的人类)仍是一个未解决的研究方向。
作者
- Shaoting Zhu
- Ziwen Zhuang
- Mengjie Zhao
- Kun‑Ying Lee
- Hang Zhao
论文信息
- arXiv ID: 2601.07718v1
- 分类: cs.RO, cs.AI
- 出版日期: 2026年1月12日
- PDF: 下载 PDF