[논문] 차이 인식 검색 정책을 이용한 모방 학습
개요
행동 클로닝을 통한 파라메트릭 모방 학습은 배포 시 누적 오류 때문에 분포 외 상태에 대한 일반화가 저조할 수 있습니다. 우리는 반파라메트릭 검색 기반 모방 학습 접근법을 이용해 추론 단계에서 학습 데이터를 재활용하면 이 문제를 완화할 수 있음을 보여줍니다. 우리는 Difference-Aware Retrieval Policies for Imitation Learning (DARP) 를 제안합니다. DARP는 직접적인 상태‑행동 매핑 대신 지역 이웃 구조를 활용해 모방 학습 문제를 재파라메터화함으로써 이 한계를 극복하는 반파라메트릭 검색 기반 모방 학습 방법입니다. 전역 정책을 학습하는 대신, DARP는 전문가 시연에서 얻은 $k$-최근접 이웃, 해당 이웃의 행동, 그리고 이웃 상태와 질의 상태 사이의 상대 거리 벡터를 이용해 행동을 예측하는 모델을 학습합니다. DARP는 표준 행동 클로닝에 요구되는 가정 외에 추가적인 가정을 필요로 하지 않으며, 별도의 데이터 수집, 온라인 전문가 피드백, 혹은 작업 특화 지식이 필요하지 않습니다. 우리는 연속 제어, 로봇 조작 등 다양한 도메인과 고차원 시각 특징을 포함한 여러 표현 방식에서 표준 행동 클로닝 대비 15‑46%의 일관된 성능 향상을 입증했습니다. 코드와 데모는 https://weirdlabuw.github.io/darp-site/ 에서 확인할 수 있습니다.
주요 기여
이 논문은 다음 분야의 연구를 다룹니다:
- cs.RO
- cs.AI
- cs.LG
방법론
자세한 방법론은 전체 논문을 참고하십시오.
실용적 함의
이 연구는 cs.RO 분야의 발전에 기여합니다.
저자
- Quinn Pfeifer
- Ethan Pronovost
- Paarth Shah
- Khimya Khetarpal
- Siddhartha Srinivasa
- Abhishek Gupta
논문 정보
- arXiv ID: 2606.09758v1
- Categories: cs.RO, cs.AI, cs.LG
- Published: 2026년 6월 8일
- PDF: PDF 다운로드