[논문] 차이 인식 검색 정책을 이용한 모방 학습

발행: 3일 전 (2026년 6월 9일 AM 02:18 GMT+9)

3 분 소요

원문: arXiv

출처: arXiv - 2606.09758v1

개요

행동 클로닝을 통한 파라메트릭 모방 학습은 배포 시 누적 오류 때문에 분포 외 상태에 대한 일반화가 저조할 수 있습니다. 우리는 반파라메트릭 검색 기반 모방 학습 접근법을 이용해 추론 단계에서 학습 데이터를 재활용하면 이 문제를 완화할 수 있음을 보여줍니다. 우리는 Difference-Aware Retrieval Policies for Imitation Learning (DARP) 를 제안합니다. DARP는 직접적인 상태‑행동 매핑 대신 지역 이웃 구조를 활용해 모방 학습 문제를 재파라메터화함으로써 이 한계를 극복하는 반파라메트릭 검색 기반 모방 학습 방법입니다. 전역 정책을 학습하는 대신, DARP는 전문가 시연에서 얻은 $k$-최근접 이웃, 해당 이웃의 행동, 그리고 이웃 상태와 질의 상태 사이의 상대 거리 벡터를 이용해 행동을 예측하는 모델을 학습합니다. DARP는 표준 행동 클로닝에 요구되는 가정 외에 추가적인 가정을 필요로 하지 않으며, 별도의 데이터 수집, 온라인 전문가 피드백, 혹은 작업 특화 지식이 필요하지 않습니다. 우리는 연속 제어, 로봇 조작 등 다양한 도메인과 고차원 시각 특징을 포함한 여러 표현 방식에서 표준 행동 클로닝 대비 15‑46%의 일관된 성능 향상을 입증했습니다. 코드와 데모는 https://weirdlabuw.github.io/darp-site/ 에서 확인할 수 있습니다.

주요 기여

이 논문은 다음 분야의 연구를 다룹니다:

cs.RO
cs.AI
cs.LG

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

이 연구는 cs.RO 분야의 발전에 기여합니다.

저자

Quinn Pfeifer
Ethan Pronovost
Paarth Shah
Khimya Khetarpal
Siddhartha Srinivasa
Abhishek Gupta

논문 정보

arXiv ID: 2606.09758v1
Categories: cs.RO, cs.AI, cs.LG
Published: 2026년 6월 8일
PDF: PDF 다운로드

[논문] 차이 인식 검색 정책을 이용한 모방 학습

개요

주요 기여

방법론

실용적 함의

저자

논문 정보

관련 글

[논문] UniIntervene: 효율적인 실세계 강화학습을 위한 에이전트 기반 개입

[논문] Ambient Diffusion Policy: 로봇 분야 비최적 데이터로부터 모방 학습

[논문] 서브쿼드러틱 아키텍처: 응용에서 원리까지

[논문] 결손 모달리티가 있는 다중모달 학습을 위한 잠재 세계 복원