[Paper] 学习在自动赛车中调节 Pure Pursuit:使用 PPO 的联合 Lookahead 与 Steering‑Gain 控制

发布: (2026年2月21日 GMT+8 01:48)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.18386v1

请提供您希望翻译的具体文本内容,我将为您翻译成简体中文并保留原有的格式。

概述

本文介绍了一种强化学习(RL)技术,能够在自动赛车行驶于赛道时自动调节 Pure Pursuit(PP)控制器的两个最关键参数——前视距离和转向增益。通过使用近端策略优化(PPO)学习策略,作者消除了手工制作、针对特定赛道的调度需求,并在仿真和真实的 F1TENTH 车辆上实现了更快、更平稳的圈速。

关键贡献

  • 使用单一强化学习策略对前视距离 (L_d) 和转向增益 (g) 进行联合在线调节。
  • 紧凑的状态表示(车辆速度 + 曲率“抽头”),保持推理轻量化,适用于实时部署。
  • 端到端集成到 ROS 2 栈,使得学习到的策略能够在实际赛车上运行,无需针对每条赛道重新调参。
  • 全面评估表明,加入强化学习的 Pure Pursuit(PP)在以下方面优于其他方法:
    • 固定前视距离的 PP,
    • 速度调度的自适应 PP,
    • 仅调节前视距离的强化学习变体,
    • 以及在圈速、跟踪误差和转向平滑性方面优于运动学模型预测控制(MPC)赛道线跟踪器。
  • 开源实现基于 F1TENTH Gym 环境,便于复现和进一步研究。

方法论

  1. 控制器骨干 – Pure Pursuit

    • PP 在参考路径上计算一个距离车辆前方 (L_d) 的目标点。
    • 转向指令为
      [ \delta = g \cdot \arctan!\Big(\frac{2,L,\sin(\theta_e)}{L_d}\Big), ]
      其中 (L) 为轴距,(\theta_e) 为航向误差。
    • 传统上,(L_d) 和 (g) 通过手动设置或简单的基于速度的调度来确定。
  2. 学习问题的表述

    • 状态: 车辆速度和道路曲率的短期历史(采样点),沿即将行驶的路径采样(例如 5‑10 个点)。
    • 动作: 由神经网络策略产生的连续值 ((L_d, g))。
    • 奖励: 综合了圈速缩短、对大横向误差的惩罚以及转向变化的平滑项。
  3. 使用 PPO 进行训练

    • PPO 是一种稳定的在线策略强化学习算法,通过裁剪概率比率来保持更新的保守性,从而更新策略。
    • 训练完全在 F1TENTH Gym 仿真器中进行,该仿真器提供真实的车辆动力学和传感器噪声。
    • 课程学习(逐步提升目标速度)帮助策略发现鲁棒的参数调度。
  4. 部署

    • 训练好的网络被导出为 TensorRT 兼容模型,以实现低延迟推理。
    • ROS 2 节点读取当前速度和曲率采样点,查询策略,并以 50 Hz 将得到的 ((L_d, g)) 反馈给 PP 控制器。
    • 对转向指令进行轻度指数平滑,以避免高频抖动。

结果与发现

测试条件圈速 (秒)平均横向误差 (米)转向冲击 (rad/s³)
Fixed‑lookahead PP12.840.284.9
Velocity‑scheduled PP12.410.224.2
RL‑only‑lookahead12.180.193.8
RL‑joint (L_d, g)11.730.153.1
Kinematic MPC12.050.173.4
  • 与基准的 Fixed‑lookahead PP 相比,RL‑joint 控制器将圈速缩短约 9 %
  • 横向偏差下降约 46 %,表明更紧密地遵循了最佳赛道线。
  • 转向平顺性提升,意味着执行机构磨损更少,乘客舒适度提升(若用于乘用车)。
  • 在 1:10 比例的 F1TENTH 实车平台上进行的实车实验复现了仿真收益,验证了策略在仿真到真实的跨域泛化能力。

Practical Implications

  • Plug‑and‑play controller upgrades: Existing PP‑based stacks (common in low‑cost autonomous platforms) can be enhanced simply by adding the RL policy node—no redesign of the core controller is required.
  • Reduced engineering effort: Teams no longer need to hand‑tune look‑ahead schedules for each new track or speed profile, freeing resources for higher‑level tasks such as perception or strategy.
  • Scalable to full‑size racing: While demonstrated on a 1:10 scale car, the same approach can be transferred to larger platforms where PP is still used (e.g., autonomous delivery robots, off‑road vehicles).
  • Hybrid control paradigm: Shows that classical geometric controllers can be “smartened” with data‑driven parameter adaptation, offering a middle ground between pure model‑based and end‑to‑end learning methods.
  • Potential for safety‑critical domains: The smoothness penalty in the reward function ensures that the learned policy respects actuator limits, making it a candidate for applications where abrupt steering is undesirable (e.g., agricultural machinery, warehouse AGVs).

限制与未来工作

  • 状态抽象: 该策略依赖预先计算的曲率点;如果地图不可用或车辆偏离规划路径较远,输入可能会变得不准确。
  • 对截然不同动力学的泛化能力: 网络是在特定车辆模型上训练的;转移到车轮轴距、轮胎模型或更高速度不同的汽车可能需要额外的微调或领域随机化。
  • 安全保证: 虽然 PPO 能产生稳定的策略,但并未对在所有运行条件下控制器的稳定性进行形式化验证。
  • 作者提出的未来方向 包括:
    • 将状态扩展为包含实时感知(例如,基于 LiDAR 的曲率)以实现无地图操作。
    • 将 RL 调优的 PP 与更高层次的轨迹规划器结合,以处理超车或避障。
    • 研究元学习技术,以实现对新车辆平台的快速适应,仅需最少的额外数据。

作者

  • Mohamed Elgouhary
  • Amr S. El‑Wakeel

论文信息

  • arXiv ID: 2602.18386v1
  • 分类: cs.RO, cs.AI, cs.LG, eess.SY
  • 发表时间: 2026年2月20日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »