[논문] Ambient Diffusion Policy: 로봇 분야 비최적 데이터로부터 모방 학습
개요
우리는 로봇공학에서 최적이 아닌 데이터로부터 모방 학습을 수행하기 위한 간단하고 원칙적인 방법인 Ambient Diffusion Policy를 제안한다. 고품질의 작업‑특화 로봇 데이터는 수집 비용이 많이 들고 시간이 많이 소요되는 반면, 품질이 낮거나 분포가 벗어난 시연을 포함한 최적이 아닌 데이터셋은 풍부하게 존재한다. 로봇공학에서 두 데이터 소스를 동시에 학습시키는 기존 방법들은 최적이 아닌 샘플에 포함된 의미 있는 특징과 해로운 특징을 구분하지 못하는 경우가 많다. 이에 반해, 우리 방법은 노이즈 의존 데이터 사용이라는 새로운 축을 도입하여 공동 학습에서 유용한 특징만을 추출한다. Ambient Diffusion Policy는 학습 과정에서 최적이 아닌 데이터의 기여를 높은 확산 시간과 낮은 확산 시간에만 제한한다. 우리의 접근법을 엄밀히 정당화하기 위해, 먼저 로봇 행동 데이터가 스펙트럼 파워 법칙을 따른다는 사실을 관찰한다. 이는 최적 Diffusion Policy에 두 가지 중요한 속성을 부여한다: 전역‑국부 계층 구조와 국소성. 우리는 이를 단순화된 모델을 사용해 이론적으로 정식화한다. 실험을 통해 네 가지 유형의 최적이 아닌 행동 데이터(노이즈가 섞인 궤적, 시뮬‑실제 격차, 작업 불일치, 대규모 데이터 혼합)와 여섯 개 작업에 걸쳐 Ambient Diffusion Policy를 검증하였다. 결과는 이 방법이 임의의 최적이 아닌 데이터 소스로부터 효과적으로 학습함을 보여준다. 특히, 이질적인 데이터 품질과 구조화되지 않은 분포 변화를 포함하는 대규모 데이터셋인 Open X-Embodiment에 확장했을 때 기존 공동 학습 베이스라인보다 최대 33 % 향상된 성능을 기록한다. 전반적으로 Ambient Diffusion Policy는 최적이 아닌 시연의 활용도를 높이고 로봇공학에서 사용할 수 있는 데이터 소스의 범위를 확대한다.
주요 기여
이 논문은 다음 분야의 연구를 다룬다:
- cs.RO
- cs.AI
방법론
자세한 방법론은 전체 논문을 참고하시기 바랍니다.
실용적 함의
본 연구는 cs.RO 분야의 발전에 기여한다.
저자
- Adam Wei
- Nicholas Pfaff
- Thomas Cohn
- Arif Kerem Dayı
- Constantinos Daskalakis
- Giannis Daras
- Russ Tedrake
논문 정보
- arXiv ID: 2606.12365v1
- 분류: cs.RO, cs.AI
- 발표일: 2026년 6월 10일
- PDF: PDF 다운로드