[논문] Ambient Diffusion Policy: 로봇 분야 비최적 데이터로부터 모방 학습

발행: 3일 전 (2026년 6월 11일 AM 02:34 GMT+9)

4 분 소요

원문: arXiv

출처: arXiv - 2606.12365v1

개요

우리는 로봇공학에서 최적이 아닌 데이터로부터 모방 학습을 수행하기 위한 간단하고 원칙적인 방법인 Ambient Diffusion Policy를 제안한다. 고품질의 작업‑특화 로봇 데이터는 수집 비용이 많이 들고 시간이 많이 소요되는 반면, 품질이 낮거나 분포가 벗어난 시연을 포함한 최적이 아닌 데이터셋은 풍부하게 존재한다. 로봇공학에서 두 데이터 소스를 동시에 학습시키는 기존 방법들은 최적이 아닌 샘플에 포함된 의미 있는 특징과 해로운 특징을 구분하지 못하는 경우가 많다. 이에 반해, 우리 방법은 노이즈 의존 데이터 사용이라는 새로운 축을 도입하여 공동 학습에서 유용한 특징만을 추출한다. Ambient Diffusion Policy는 학습 과정에서 최적이 아닌 데이터의 기여를 높은 확산 시간과 낮은 확산 시간에만 제한한다. 우리의 접근법을 엄밀히 정당화하기 위해, 먼저 로봇 행동 데이터가 스펙트럼 파워 법칙을 따른다는 사실을 관찰한다. 이는 최적 Diffusion Policy에 두 가지 중요한 속성을 부여한다: 전역‑국부 계층 구조와 국소성. 우리는 이를 단순화된 모델을 사용해 이론적으로 정식화한다. 실험을 통해 네 가지 유형의 최적이 아닌 행동 데이터(노이즈가 섞인 궤적, 시뮬‑실제 격차, 작업 불일치, 대규모 데이터 혼합)와 여섯 개 작업에 걸쳐 Ambient Diffusion Policy를 검증하였다. 결과는 이 방법이 임의의 최적이 아닌 데이터 소스로부터 효과적으로 학습함을 보여준다. 특히, 이질적인 데이터 품질과 구조화되지 않은 분포 변화를 포함하는 대규모 데이터셋인 Open X-Embodiment에 확장했을 때 기존 공동 학습 베이스라인보다 최대 33 % 향상된 성능을 기록한다. 전반적으로 Ambient Diffusion Policy는 최적이 아닌 시연의 활용도를 높이고 로봇공학에서 사용할 수 있는 데이터 소스의 범위를 확대한다.

주요 기여

이 논문은 다음 분야의 연구를 다룬다:

cs.RO
cs.AI

방법론

자세한 방법론은 전체 논문을 참고하시기 바랍니다.

실용적 함의

본 연구는 cs.RO 분야의 발전에 기여한다.

저자

Adam Wei
Nicholas Pfaff
Thomas Cohn
Arif Kerem Dayı
Constantinos Daskalakis
Giannis Daras
Russ Tedrake

논문 정보

arXiv ID: 2606.12365v1
분류: cs.RO, cs.AI
발표일: 2026년 6월 10일
PDF: PDF 다운로드

[논문] Ambient Diffusion Policy: 로봇 분야 비최적 데이터로부터 모방 학습

개요

주요 기여

방법론

실용적 함의

저자

논문 정보

관련 글

[논문] UniIntervene: 효율적인 실세계 강화학습을 위한 에이전트 기반 개입

[논문] 서브쿼드러틱 아키텍처: 응용에서 원리까지

[논문] 결손 모달리티가 있는 다중모달 학습을 위한 잠재 세계 복원

[논문] 사후 학습 해부: 해석 가능성을 활용해 데이터와 학습 신호를 규정