[Paper] 자율 레이싱에서 Pure Pursuit 튜닝 학습: Joint Lookahead 및 Steering‑Gain 제어 with PPO
Source: arXiv - 2602.18386v1
개요
이 논문은 강화학습(RL) 기법을 도입하여 순수 추적(Pure Pursuit, PP) 컨트롤러의 가장 중요한 두 매개변수인 선행 거리(look‑ahead distance)와 조향 이득(steering gain)을 자율 레이스카가 트랙 위에 있는 동안 자동으로 조정합니다. 근접 정책 최적화(Proximal Policy Optimization, PPO)를 사용해 정책을 학습함으로써, 저자들은 수작업으로 만든 트랙‑특정 스케줄의 필요성을 없애고 시뮬레이션과 실제 F1TENTH 차량 모두에서 더 빠르고 부드러운 랩을 달성합니다.
주요 기여
- 단일 RL 정책을 사용한 look‑ahead 거리 (L_d) 와 조향 이득 (g) 의 공동 온라인 튜닝.
- 경량 추론을 위한 압축된 상태 표현 (차량 속도 + 곡률 “탭”)으로 실시간 배포 가능.
- ROS 2 스택과의 엔드‑투‑엔드 통합, 학습된 정책을 실제 레이스카에 트랙별 재조정 없이 실행 가능.
- 포괄적인 평가를 통해 RL‑보강 PP가 다음을 능가함을 입증:
- 고정 look‑ahead PP,
- 속도‑스케줄링 적응형 PP,
- look‑ahead만 조정하는 RL 변형,
- 그리고 랩 타임, 트래킹 오차, 조향 부드러움 측면에서 kinematic Model Predictive Control (MPC) 레이스라인 트래커.
- F1TENTH Gym 환경에서의 오픈‑소스 구현, 재현성 및 추가 연구 촉진.
Source: …
Methodology
-
Controller Backbone – Pure Pursuit
- PP는 차량 앞쪽 거리 (L_d)에 있는 기준 경로상의 목표점을 계산합니다.
- 조향 명령은
[ \delta = g \cdot \arctan!\Big(\frac{2,L,\sin(\theta_e)}{L_d}\Big), ]
여기서 (L)은 휠베이스이고 (\theta_e)는 헤딩 오류입니다. - 전통적으로 (L_d)와 (g)는 수동으로 설정하거나 단순한 속도 기반 스케줄에 따라 지정됩니다.
-
Learning Problem Formulation
- State: 다가오는 경로를 따라 샘플링한 차량 속도와 도로 곡률의 짧은 히스토리(탭) (예: 5‑10 포인트).
- Action: 신경망 정책에 의해 생성되는 연속값 ((L_d, g)).
- Reward: 랩 타임 감소, 큰 측면 오차에 대한 페널티, 그리고 조향 변화에 대한 부드러움 항을 결합합니다.
-
Training with PPO
- PPO는 확률 비율을 클리핑하여 업데이트를 보수적으로 유지하는 안정적인 온‑폴리시 RL 알고리즘입니다.
- 학습은 현실적인 차량 동역학과 센서 노이즈를 제공하는 F1TENTH Gym 시뮬레이터에서 전적으로 수행됩니다.
- 커리큘럼 학습(목표 속도를 점진적으로 증가)으로 정책이 강인한 파라미터 스케줄을 발견하도록 돕습니다.
-
Deployment
- 학습된 네트워크는 저지연 추론을 위해 TensorRT‑호환 모델로 내보내집니다.
- ROS 2 노드가 현재 속도와 곡률 탭을 읽고 정책에 질의한 뒤, 결과 ((L_d, g))를 50 Hz에서 PP 컨트롤러에 다시 입력합니다.
- 고주파 진동을 방지하기 위해 조향 명령에 가벼운 지수 평활을 적용합니다.
결과 및 발견
| 테스트 조건 | 랩 타임 (초) | 평균 측면 오차 (m) | 조향 저크 (rad/s³) |
|---|---|---|---|
| Fixed‑lookahead PP | 12.84 | 0.28 | 4.9 |
| Velocity‑scheduled PP | 12.41 | 0.22 | 4.2 |
| RL‑only‑lookahead | 12.18 | 0.19 | 3.8 |
| RL‑joint (L_d, g) | 11.73 | 0.15 | 3.1 |
| Kinematic MPC | 12.05 | 0.17 | 3.4 |
- RL‑joint 컨트롤러는 기준인 Fixed‑lookahead PP에 비해 랩 타임을 ~9 % 감소시켰다.
- 측면 편차가 ~46 % 감소했으며, 이는 최적 레이싱 라인에 더 가깝게 따름을 의미한다.
- 조향 부드러움이 향상되어 액추에이터 마모가 감소하고 승객 편안함이 향상된다 (승용차에 적용할 경우).
- 1:10 스케일 F1TENTH 플랫폼에서 실제 차량 실험이 시뮬레이션 향상을 재현했으며, 정책이 시뮬‑실 차이를 넘어 일반화됨을 확인했다.
Practical Implications
- Plug‑and‑play controller upgrades: 기존 PP‑기반 스택(저비용 자율 플랫폼에서 흔히 사용됨)을 RL 정책 노드만 추가하면 간단히 향상시킬 수 있으며, 핵심 컨트롤러를 재설계할 필요가 없습니다.
- Reduced engineering effort: 팀은 이제 새로운 트랙이나 속도 프로파일마다 앞을 내다보는 스케줄을 수동으로 조정할 필요가 없어지며, 인식이나 전략과 같은 고수준 작업에 자원을 할당할 수 있습니다.
- Scalable to full‑size racing: 1:10 축소 모델 차량에서 입증되었지만, PP가 여전히 사용되는 더 큰 플랫폼(예: 자율 배달 로봇, 오프로드 차량)에도 동일한 접근 방식을 적용할 수 있습니다.
- Hybrid control paradigm: 고전적인 기하학적 컨트롤러에 데이터 기반 파라미터 적응을 결합해 “스마트화”할 수 있음을 보여주며, 순수 모델 기반 방식과 엔드‑투‑엔드 학습 방식 사이의 중간 지점을 제공합니다.
- Potential for safety‑critical domains: 보상 함수에 포함된 부드러움 페널티는 학습된 정책이 액추에이터 제한을 준수하도록 보장하므로, 급격한 조향이 바람직하지 않은 응용 분야(예: 농업 기계, 창고 AGV)에서 후보가 될 수 있습니다.
제한 사항 및 향후 연구
- 상태 추상화: 정책은 사전 계산된 곡률 탭에 의존한다; 지도가 없거나 차량이 계획 경로에서 크게 벗어나면 입력이 부정확해질 수 있다.
- 극적으로 다른 동역학에 대한 일반화: 네트워크는 특정 차량 모델에 대해 학습되었으며, 휠베이스, 타이어 모델, 혹은 고속 주행이 다른 차량에 적용하려면 추가 미세조정이나 도메인 랜덤화가 필요할 수 있다.
- 안전 보장: PPO가 안정적인 정책을 제공하지만, 모든 작동 조건에서 결과 제어기의 안정성을 형식적으로 검증하는 것은 다루어지지 않는다.
- 향후 방향은 저자들이 제안한 바와 같이:
- 지도 없이도 동작할 수 있도록 실시간 인식(예: LiDAR 기반 곡률)을 상태에 포함하도록 확장한다.
- RL‑튜닝된 PP를 고수준 궤적 플래너와 결합하여 추월이나 장애물 회피를 처리한다.
- 메타‑러닝 기법을 조사하여 최소한의 추가 데이터로 새로운 차량 플랫폼에 빠르게 적응할 수 있게 한다.
저자
- Mohamed Elgouhary
- Amr S. El‑Wakeel
논문 정보
- arXiv ID: 2602.18386v1
- 분류: cs.RO, cs.AI, cs.LG, eess.SY
- 출판일: 2026년 2월 20일
- PDF: PDF 다운로드