[Paper] 자율 레이싱에서 Pure Pursuit 튜닝 학습: Joint Lookahead 및 Steering‑Gain 제어 with PPO

발행: (2026년 2월 21일 오전 02:48 GMT+9)
9 분 소요
원문: arXiv

Source: arXiv - 2602.18386v1

개요

이 논문은 강화학습(RL) 기법을 도입하여 순수 추적(Pure Pursuit, PP) 컨트롤러의 가장 중요한 두 매개변수인 선행 거리(look‑ahead distance)와 조향 이득(steering gain)을 자율 레이스카가 트랙 위에 있는 동안 자동으로 조정합니다. 근접 정책 최적화(Proximal Policy Optimization, PPO)를 사용해 정책을 학습함으로써, 저자들은 수작업으로 만든 트랙‑특정 스케줄의 필요성을 없애고 시뮬레이션과 실제 F1TENTH 차량 모두에서 더 빠르고 부드러운 랩을 달성합니다.

주요 기여

  • 단일 RL 정책을 사용한 look‑ahead 거리 (L_d) 와 조향 이득 (g) 의 공동 온라인 튜닝.
  • 경량 추론을 위한 압축된 상태 표현 (차량 속도 + 곡률 “탭”)으로 실시간 배포 가능.
  • ROS 2 스택과의 엔드‑투‑엔드 통합, 학습된 정책을 실제 레이스카에 트랙별 재조정 없이 실행 가능.
  • 포괄적인 평가를 통해 RL‑보강 PP가 다음을 능가함을 입증:
    • 고정 look‑ahead PP,
    • 속도‑스케줄링 적응형 PP,
    • look‑ahead만 조정하는 RL 변형,
    • 그리고 랩 타임, 트래킹 오차, 조향 부드러움 측면에서 kinematic Model Predictive Control (MPC) 레이스라인 트래커.
  • F1TENTH Gym 환경에서의 오픈‑소스 구현, 재현성 및 추가 연구 촉진.

Source:

Methodology

  1. Controller Backbone – Pure Pursuit

    • PP는 차량 앞쪽 거리 (L_d)에 있는 기준 경로상의 목표점을 계산합니다.
    • 조향 명령은
      [ \delta = g \cdot \arctan!\Big(\frac{2,L,\sin(\theta_e)}{L_d}\Big), ]
      여기서 (L)은 휠베이스이고 (\theta_e)는 헤딩 오류입니다.
    • 전통적으로 (L_d)와 (g)는 수동으로 설정하거나 단순한 속도 기반 스케줄에 따라 지정됩니다.
  2. Learning Problem Formulation

    • State: 다가오는 경로를 따라 샘플링한 차량 속도와 도로 곡률의 짧은 히스토리(탭) (예: 5‑10 포인트).
    • Action: 신경망 정책에 의해 생성되는 연속값 ((L_d, g)).
    • Reward: 랩 타임 감소, 큰 측면 오차에 대한 페널티, 그리고 조향 변화에 대한 부드러움 항을 결합합니다.
  3. Training with PPO

    • PPO는 확률 비율을 클리핑하여 업데이트를 보수적으로 유지하는 안정적인 온‑폴리시 RL 알고리즘입니다.
    • 학습은 현실적인 차량 동역학과 센서 노이즈를 제공하는 F1TENTH Gym 시뮬레이터에서 전적으로 수행됩니다.
    • 커리큘럼 학습(목표 속도를 점진적으로 증가)으로 정책이 강인한 파라미터 스케줄을 발견하도록 돕습니다.
  4. Deployment

    • 학습된 네트워크는 저지연 추론을 위해 TensorRT‑호환 모델로 내보내집니다.
    • ROS 2 노드가 현재 속도와 곡률 탭을 읽고 정책에 질의한 뒤, 결과 ((L_d, g))를 50 Hz에서 PP 컨트롤러에 다시 입력합니다.
    • 고주파 진동을 방지하기 위해 조향 명령에 가벼운 지수 평활을 적용합니다.

결과 및 발견

테스트 조건랩 타임 (초)평균 측면 오차 (m)조향 저크 (rad/s³)
Fixed‑lookahead PP12.840.284.9
Velocity‑scheduled PP12.410.224.2
RL‑only‑lookahead12.180.193.8
RL‑joint (L_d, g)11.730.153.1
Kinematic MPC12.050.173.4
  • RL‑joint 컨트롤러는 기준인 Fixed‑lookahead PP에 비해 랩 타임을 ~9 % 감소시켰다.
  • 측면 편차가 ~46 % 감소했으며, 이는 최적 레이싱 라인에 더 가깝게 따름을 의미한다.
  • 조향 부드러움이 향상되어 액추에이터 마모가 감소하고 승객 편안함이 향상된다 (승용차에 적용할 경우).
  • 1:10 스케일 F1TENTH 플랫폼에서 실제 차량 실험이 시뮬레이션 향상을 재현했으며, 정책이 시뮬‑실 차이를 넘어 일반화됨을 확인했다.

Practical Implications

  • Plug‑and‑play controller upgrades: 기존 PP‑기반 스택(저비용 자율 플랫폼에서 흔히 사용됨)을 RL 정책 노드만 추가하면 간단히 향상시킬 수 있으며, 핵심 컨트롤러를 재설계할 필요가 없습니다.
  • Reduced engineering effort: 팀은 이제 새로운 트랙이나 속도 프로파일마다 앞을 내다보는 스케줄을 수동으로 조정할 필요가 없어지며, 인식이나 전략과 같은 고수준 작업에 자원을 할당할 수 있습니다.
  • Scalable to full‑size racing: 1:10 축소 모델 차량에서 입증되었지만, PP가 여전히 사용되는 더 큰 플랫폼(예: 자율 배달 로봇, 오프로드 차량)에도 동일한 접근 방식을 적용할 수 있습니다.
  • Hybrid control paradigm: 고전적인 기하학적 컨트롤러에 데이터 기반 파라미터 적응을 결합해 “스마트화”할 수 있음을 보여주며, 순수 모델 기반 방식과 엔드‑투‑엔드 학습 방식 사이의 중간 지점을 제공합니다.
  • Potential for safety‑critical domains: 보상 함수에 포함된 부드러움 페널티는 학습된 정책이 액추에이터 제한을 준수하도록 보장하므로, 급격한 조향이 바람직하지 않은 응용 분야(예: 농업 기계, 창고 AGV)에서 후보가 될 수 있습니다.

제한 사항 및 향후 연구

  • 상태 추상화: 정책은 사전 계산된 곡률 탭에 의존한다; 지도가 없거나 차량이 계획 경로에서 크게 벗어나면 입력이 부정확해질 수 있다.
  • 극적으로 다른 동역학에 대한 일반화: 네트워크는 특정 차량 모델에 대해 학습되었으며, 휠베이스, 타이어 모델, 혹은 고속 주행이 다른 차량에 적용하려면 추가 미세조정이나 도메인 랜덤화가 필요할 수 있다.
  • 안전 보장: PPO가 안정적인 정책을 제공하지만, 모든 작동 조건에서 결과 제어기의 안정성을 형식적으로 검증하는 것은 다루어지지 않는다.
  • 향후 방향은 저자들이 제안한 바와 같이:
    • 지도 없이도 동작할 수 있도록 실시간 인식(예: LiDAR 기반 곡률)을 상태에 포함하도록 확장한다.
    • RL‑튜닝된 PP를 고수준 궤적 플래너와 결합하여 추월이나 장애물 회피를 처리한다.
    • 메타‑러닝 기법을 조사하여 최소한의 추가 데이터로 새로운 차량 플랫폼에 빠르게 적응할 수 있게 한다.

저자

  • Mohamed Elgouhary
  • Amr S. El‑Wakeel

논문 정보

  • arXiv ID: 2602.18386v1
  • 분류: cs.RO, cs.AI, cs.LG, eess.SY
  • 출판일: 2026년 2월 20일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »

[Paper] 강인한 객체 인식을 위한 Latent Equivariant Operators: 약속과 도전

딥러닝이 컴퓨터 비전에서 성공을 거두었음에도 불구하고, 학습 중에 거의 보지 못한 그룹 대칭 변환을 겪은 객체를 인식하는 데 어려움이 지속됩니다. 기존 방법들은 데이터 증강에 의존하는데, 이는 계산 비용이 많이 들고 범위가 제한적이며, 혹은 견고함이 부족한 수작업 특징에 의존합니다. 본 연구에서는 보다 넓은 범위의 변환에 대한 불변성을 달성하기 위해 그룹-에퀴베리언트 컨볼루션과 어텐션 메커니즘을 통합한 새로운 아키텍처를 제안합니다. 우리의 모델은 제어된 변환을 가진 합성 데이터셋으로 학습되고 실제 벤치마크에서 평가되어, 최신 최첨단 베이스라인 대비 top-1 accuracy에서 12% 향상을 보여줍니다.