[Paper] 基于课程的强化学习在未知弯曲管状通道中的自主无人机导航
发布: (2025年12月12日 GMT+8 02:57)
6 min read
原文: arXiv
Source: arXiv - 2512.10934v1
Overview
本文解决了一个极具挑战性的问题:让无人机在从未见过的狭窄弯曲管道中自主飞行。通过将强化学习(RL)与课程学习训练计划相结合,作者使 UAV 仅依赖机载 LiDAR 和管道中心的短暂视觉线索,就能够超越即使知道精确中心线的经典确定性控制器。
Key Contributions
- 基于课程的 RL 框架,用于在未知的三维管道中导航,无需预先构建地图。
- 部分可观测性处理,通过“转弯协商”模块融合 LiDAR 对称性、方向记忆和间歇的视觉中心检测。
- 稳健的对比实验,与拥有特权几何信息的 Pure Pursuit 基线进行比较,展示 RL 在补偿缺失数据方面的能力。
- 高保真仿真验证,表明在简化环境中训练的策略能够迁移到具有真实物理和传感器噪声的环境。
- 开放式适用性,可用于工业检测、地下管道检查以及微创医疗机器人等场景。
Methodology
- 状态表示 – UAV 接收 1‑D 前向 LiDAR 深度剖面以及一个二进制标志,指示管道中心当前是否在摄像头中可见。
- 动作空间 – 连续的俯仰和偏航指令,用于控制无人机前进。
- 课程学习 – 训练从轻度弯曲的管道开始;随后逐步增加曲率,并使视觉中心线索变得更稀疏,迫使智能体更多依赖 LiDAR 对称性和记忆。
- 策略优化 – 使用近端策略优化(PPO)学习一个随机策略,以最大化前进距离并惩罚碰撞和过大的控制努力。
- 转弯协商机制 – 一个轻量级基于规则的叠加层,当中心线丢失时,利用最近一次已知方向并检查 LiDAR 对称返回,以决定继续向左还是向右转弯。该模块与 RL 策略共同学习。
- 基线 – Pure Pursuit 控制器跟随精确的中心线(仅基线可用),作为确定性参考。
Results & Findings
- 成功率: PPO 训练的 UAV 在曲率高达 1.5 m⁻¹ 的管道中完成了 92 % 的测试运行,而 Pure Pursuit 为 68 %(尽管后者拥有完美的中心线信息)。
- 碰撞减少: 每集平均碰撞次数从 0.45(基线)降至 0.12(RL)。
- 泛化能力: 在合成管道上训练的策略迁移到具有真实气动特性的 Unity‑based 高保真模拟器,成功率保持在 >85 %,且无需额外微调。
- 消融研究: 移除转弯协商模块导致成功率下降 30 %,验证了其在部分可观测环境下的关键作用。
Practical Implications
- 工业检测: 企业可以在 HVAC 风道、油管网络或地下公用管道内部部署低成本无人机,无需详细的 CAD 模型。
- 医疗机器人: 同样的原理可用于胶囊内镜在胃肠道中导航,视觉线索同样是间歇性的。
- 快速部署: 由于方法基于模拟数据学习,只需在虚拟副本中重新运行课程,即可处理新管道几何形状,避免昂贵的现场试验。
- 软件集成: 该方法可嵌入现有的基于 ROS 的 UAV 框架;策略可导出为 TensorFlow/PyTorch 模型,并在边缘硬件(如 NVIDIA Jetson)上运行。
Limitations & Future Work
- 传感器假设: 当前设置假设 1‑D LiDAR 稳定且中心检测偶尔可用;在噪声更大或高度反射的管道中性能可能下降。
- 向分支网络的可扩展性: 本工作聚焦于单一连续管道;处理分叉或网络结构仍是未解挑战。
- 真实飞行测试: 验证仅限于高保真仿真;需要在实际管道中进行物理飞行实验,以确认对气流扰动和硬件延迟的鲁棒性。
- 课程设计自动化: 曲率调度目前为手工制定;未来研究可基于难度度量自动生成课程。
结论: 通过让无人机在黑暗中“感受”前进,并结合学习与巧妙的启发式方法,本研究将自主导航推向了此前机器人难以涉足的空间,为检测、维护和医疗设备打开了新前沿。
Authors
- Zamirddine Mari
- Jérôme Pasquet
- Julien Seinturier
Paper Information
- arXiv ID: 2512.10934v1
- Categories: cs.RO, cs.LG
- Published: December 11, 2025
- PDF: Download PDF