[Paper] 学习在自动赛车中调节 Pure Pursuit:使用 PPO 的联合 Lookahead 与 Steering‑Gain 控制
发布: (2026年2月21日 GMT+8 01:48)
7 分钟阅读
原文: arXiv
Source: arXiv - 2602.18386v1
请提供您希望翻译的具体文本内容,我将为您翻译成简体中文并保留原有的格式。
概述
本文介绍了一种强化学习(RL)技术,能够在自动赛车行驶于赛道时自动调节 Pure Pursuit(PP)控制器的两个最关键参数——前视距离和转向增益。通过使用近端策略优化(PPO)学习策略,作者消除了手工制作、针对特定赛道的调度需求,并在仿真和真实的 F1TENTH 车辆上实现了更快、更平稳的圈速。
关键贡献
- 使用单一强化学习策略对前视距离 (L_d) 和转向增益 (g) 进行联合在线调节。
- 紧凑的状态表示(车辆速度 + 曲率“抽头”),保持推理轻量化,适用于实时部署。
- 端到端集成到 ROS 2 栈,使得学习到的策略能够在实际赛车上运行,无需针对每条赛道重新调参。
- 全面评估表明,加入强化学习的 Pure Pursuit(PP)在以下方面优于其他方法:
- 固定前视距离的 PP,
- 速度调度的自适应 PP,
- 仅调节前视距离的强化学习变体,
- 以及在圈速、跟踪误差和转向平滑性方面优于运动学模型预测控制(MPC)赛道线跟踪器。
- 开源实现基于 F1TENTH Gym 环境,便于复现和进一步研究。
方法论
-
控制器骨干 – Pure Pursuit
- PP 在参考路径上计算一个距离车辆前方 (L_d) 的目标点。
- 转向指令为
[ \delta = g \cdot \arctan!\Big(\frac{2,L,\sin(\theta_e)}{L_d}\Big), ]
其中 (L) 为轴距,(\theta_e) 为航向误差。 - 传统上,(L_d) 和 (g) 通过手动设置或简单的基于速度的调度来确定。
-
学习问题的表述
- 状态: 车辆速度和道路曲率的短期历史(采样点),沿即将行驶的路径采样(例如 5‑10 个点)。
- 动作: 由神经网络策略产生的连续值 ((L_d, g))。
- 奖励: 综合了圈速缩短、对大横向误差的惩罚以及转向变化的平滑项。
-
使用 PPO 进行训练
- PPO 是一种稳定的在线策略强化学习算法,通过裁剪概率比率来保持更新的保守性,从而更新策略。
- 训练完全在 F1TENTH Gym 仿真器中进行,该仿真器提供真实的车辆动力学和传感器噪声。
- 课程学习(逐步提升目标速度)帮助策略发现鲁棒的参数调度。
-
部署
- 训练好的网络被导出为 TensorRT 兼容模型,以实现低延迟推理。
- ROS 2 节点读取当前速度和曲率采样点,查询策略,并以 50 Hz 将得到的 ((L_d, g)) 反馈给 PP 控制器。
- 对转向指令进行轻度指数平滑,以避免高频抖动。
结果与发现
| 测试条件 | 圈速 (秒) | 平均横向误差 (米) | 转向冲击 (rad/s³) |
|---|---|---|---|
| Fixed‑lookahead PP | 12.84 | 0.28 | 4.9 |
| Velocity‑scheduled PP | 12.41 | 0.22 | 4.2 |
| RL‑only‑lookahead | 12.18 | 0.19 | 3.8 |
| RL‑joint (L_d, g) | 11.73 | 0.15 | 3.1 |
| Kinematic MPC | 12.05 | 0.17 | 3.4 |
- 与基准的 Fixed‑lookahead PP 相比,RL‑joint 控制器将圈速缩短约 9 %。
- 横向偏差下降约 46 %,表明更紧密地遵循了最佳赛道线。
- 转向平顺性提升,意味着执行机构磨损更少,乘客舒适度提升(若用于乘用车)。
- 在 1:10 比例的 F1TENTH 实车平台上进行的实车实验复现了仿真收益,验证了策略在仿真到真实的跨域泛化能力。
Practical Implications
- Plug‑and‑play controller upgrades: Existing PP‑based stacks (common in low‑cost autonomous platforms) can be enhanced simply by adding the RL policy node—no redesign of the core controller is required.
- Reduced engineering effort: Teams no longer need to hand‑tune look‑ahead schedules for each new track or speed profile, freeing resources for higher‑level tasks such as perception or strategy.
- Scalable to full‑size racing: While demonstrated on a 1:10 scale car, the same approach can be transferred to larger platforms where PP is still used (e.g., autonomous delivery robots, off‑road vehicles).
- Hybrid control paradigm: Shows that classical geometric controllers can be “smartened” with data‑driven parameter adaptation, offering a middle ground between pure model‑based and end‑to‑end learning methods.
- Potential for safety‑critical domains: The smoothness penalty in the reward function ensures that the learned policy respects actuator limits, making it a candidate for applications where abrupt steering is undesirable (e.g., agricultural machinery, warehouse AGVs).
限制与未来工作
- 状态抽象: 该策略依赖预先计算的曲率点;如果地图不可用或车辆偏离规划路径较远,输入可能会变得不准确。
- 对截然不同动力学的泛化能力: 网络是在特定车辆模型上训练的;转移到车轮轴距、轮胎模型或更高速度不同的汽车可能需要额外的微调或领域随机化。
- 安全保证: 虽然 PPO 能产生稳定的策略,但并未对在所有运行条件下控制器的稳定性进行形式化验证。
- 作者提出的未来方向 包括:
- 将状态扩展为包含实时感知(例如,基于 LiDAR 的曲率)以实现无地图操作。
- 将 RL 调优的 PP 与更高层次的轨迹规划器结合,以处理超车或避障。
- 研究元学习技术,以实现对新车辆平台的快速适应,仅需最少的额外数据。
作者
- Mohamed Elgouhary
- Amr S. El‑Wakeel
论文信息
- arXiv ID: 2602.18386v1
- 分类: cs.RO, cs.AI, cs.LG, eess.SY
- 发表时间: 2026年2月20日
- PDF: 下载 PDF