[Paper] 学习在自动赛车中调节 Pure Pursuit：使用 PPO 的联合 Lookahead 与 Steering‑Gain 控制

发布: 3天前 (2026年2月21日 GMT+8 01:48)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.18386v1

请提供您希望翻译的具体文本内容，我将为您翻译成简体中文并保留原有的格式。

概述

本文介绍了一种强化学习（RL）技术，能够在自动赛车行驶于赛道时自动调节 Pure Pursuit（PP）控制器的两个最关键参数——前视距离和转向增益。通过使用近端策略优化（PPO）学习策略，作者消除了手工制作、针对特定赛道的调度需求，并在仿真和真实的 F1TENTH 车辆上实现了更快、更平稳的圈速。

关键贡献

使用单一强化学习策略对前视距离 (L_d) 和转向增益 (g) 进行联合在线调节。
紧凑的状态表示（车辆速度 + 曲率“抽头”），保持推理轻量化，适用于实时部署。
端到端集成到 ROS 2 栈，使得学习到的策略能够在实际赛车上运行，无需针对每条赛道重新调参。
全面评估表明，加入强化学习的 Pure Pursuit（PP）在以下方面优于其他方法：
- 固定前视距离的 PP，
- 速度调度的自适应 PP，
- 仅调节前视距离的强化学习变体，
- 以及在圈速、跟踪误差和转向平滑性方面优于运动学模型预测控制（MPC）赛道线跟踪器。
开源实现基于 F1TENTH Gym 环境，便于复现和进一步研究。

方法论

控制器骨干 – Pure Pursuit
- PP 在参考路径上计算一个距离车辆前方 (L_d) 的目标点。
- 转向指令为
  [ \delta = g \cdot \arctan!\Big(\frac{2,L,\sin(\theta_e)}{L_d}\Big), ]
  其中 (L) 为轴距，(\theta_e) 为航向误差。
- 传统上，(L_d) 和 (g) 通过手动设置或简单的基于速度的调度来确定。
学习问题的表述
- 状态： 车辆速度和道路曲率的短期历史（采样点），沿即将行驶的路径采样（例如 5‑10 个点）。
- 动作： 由神经网络策略产生的连续值 ((L_d, g))。
- 奖励： 综合了圈速缩短、对大横向误差的惩罚以及转向变化的平滑项。
使用 PPO 进行训练
- PPO 是一种稳定的在线策略强化学习算法，通过裁剪概率比率来保持更新的保守性，从而更新策略。
- 训练完全在 F1TENTH Gym 仿真器中进行，该仿真器提供真实的车辆动力学和传感器噪声。
- 课程学习（逐步提升目标速度）帮助策略发现鲁棒的参数调度。
部署
- 训练好的网络被导出为 TensorRT 兼容模型，以实现低延迟推理。
- ROS 2 节点读取当前速度和曲率采样点，查询策略，并以 50 Hz 将得到的 ((L_d, g)) 反馈给 PP 控制器。
- 对转向指令进行轻度指数平滑，以避免高频抖动。

结果与发现

测试条件	圈速 (秒)	平均横向误差 (米)	转向冲击 (rad/s³)
Fixed‑lookahead PP	12.84	0.28	4.9
Velocity‑scheduled PP	12.41	0.22	4.2
RL‑only‑lookahead	12.18	0.19	3.8
RL‑joint (L_d, g)	11.73	0.15	3.1
Kinematic MPC	12.05	0.17	3.4

与基准的 Fixed‑lookahead PP 相比，RL‑joint 控制器将圈速缩短约 9 %。
横向偏差下降约 46 %，表明更紧密地遵循了最佳赛道线。
转向平顺性提升，意味着执行机构磨损更少，乘客舒适度提升（若用于乘用车）。
在 1:10 比例的 F1TENTH 实车平台上进行的实车实验复现了仿真收益，验证了策略在仿真到真实的跨域泛化能力。

Practical Implications

Plug‑and‑play controller upgrades: Existing PP‑based stacks (common in low‑cost autonomous platforms) can be enhanced simply by adding the RL policy node—no redesign of the core controller is required.
Reduced engineering effort: Teams no longer need to hand‑tune look‑ahead schedules for each new track or speed profile, freeing resources for higher‑level tasks such as perception or strategy.
Scalable to full‑size racing: While demonstrated on a 1:10 scale car, the same approach can be transferred to larger platforms where PP is still used (e.g., autonomous delivery robots, off‑road vehicles).
Hybrid control paradigm: Shows that classical geometric controllers can be “smartened” with data‑driven parameter adaptation, offering a middle ground between pure model‑based and end‑to‑end learning methods.
Potential for safety‑critical domains: The smoothness penalty in the reward function ensures that the learned policy respects actuator limits, making it a candidate for applications where abrupt steering is undesirable (e.g., agricultural machinery, warehouse AGVs).

限制与未来工作

状态抽象: 该策略依赖预先计算的曲率点；如果地图不可用或车辆偏离规划路径较远，输入可能会变得不准确。
对截然不同动力学的泛化能力: 网络是在特定车辆模型上训练的；转移到车轮轴距、轮胎模型或更高速度不同的汽车可能需要额外的微调或领域随机化。
安全保证: 虽然 PPO 能产生稳定的策略，但并未对在所有运行条件下控制器的稳定性进行形式化验证。
作者提出的未来方向 包括：
- 将状态扩展为包含实时感知（例如，基于 LiDAR 的曲率）以实现无地图操作。
- 将 RL 调优的 PP 与更高层次的轨迹规划器结合，以处理超车或避障。
- 研究元学习技术，以实现对新车辆平台的快速适应，仅需最少的额外数据。

作者

Mohamed Elgouhary
Amr S. El‑Wakeel

论文信息

arXiv ID: 2602.18386v1
分类: cs.RO, cs.AI, cs.LG, eess.SY
发表时间: 2026年2月20日
PDF: 下载 PDF

[Paper] 学习在自动赛车中调节 Pure Pursuit：使用 PPO 的联合 Lookahead 与 Steering‑Gain 控制

概述

关键贡献

方法论

结果与发现

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[Paper] 噪声的几何：为什么 Diffusion Models 不需要 Noise Conditioning

[Paper] $U(d)$ 的子群诱导自然的 RNN 与 Transformer 架构

[Paper] 统一方法实现图神经网络的统一表达能力

[Paper] 潜在等变算子用于鲁棒目标识别：前景与挑战