[Paper] 효과적인 것을 모방하기: Simulation-Filtered Modular Policy Learning from Human Videos

발행: 3일 전 (2026년 2월 14일 오전 03:59 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2602.13197v1

Overview

이 논문은 Perceive‑Simulate‑Imitate (PSI) 라는 새로운 파이프라인을 소개한다. 이 파이프라인은 로봇이 일반적인 인간 손 동영상만을 시청함으로써 복잡한 픽‑앤‑플레이스 기술을 학습하도록 한다—로봇이 직접 수집한 데이터 없이 . 인간의 움직임 궤적을 시뮬레이션된 잡기 가능성 검사와 결합함으로써, PSI는 먼저 작업에 적합한 그립을 선택하고 그 다음 관찰된 그립 후 동작을 모방하는 모듈식 정책을 훈련시켜, 실제 환경에서의 성공률을 크게 향상시킨다.

Key Contributions

Simulation‑filtered grasp labeling: 시뮬레이션 필터링된 그립 라벨링: 물리 시뮬레이터를 사용해 인간이 만든 궤적에 이진 “그립‑적합” 플래그를 주석 달아, 원시 비디오 데이터를 작업 인식 그립을 위한 지도 학습 신호로 변환합니다.
Modular policy architecture: 모듈형 정책 아키텍처: 그립 생성(학습된 그립 선택기)과 궤적 모방(모션‑이미테이터)을 분리하여 각 구성 요소를 독립적으로 최적화할 수 있게 합니다.
Zero‑robot‑data training: 로봇 데이터 없이 학습: 전체 시스템을 공개된 인간 비디오와 시뮬레이션 그립만으로 학습할 수 있음을 보여주어, 비용이 많이 드는 로봇 데이터 수집을 없앱니다.
Real‑world validation: 실제 환경 검증: 물리 로봇에서 PSI가 다양한 파악 작업(예: 물체 재배치, 도구 사용)에서 기존의 단순 그립 생성기보다 높은 성공률을 달성함을 보여줍니다.
Scalable data pipeline: 확장 가능한 데이터 파이프라인: 기존 비디오 데이터셋(예: EPIC‑Kitchens, YouTube)을 사실상 무한한 조작 시연 소스로 활용합니다.

방법론

Perceive: 인간 비디오에서 off‑the‑shelf pose estimation 및 depth reconstruction 도구를 사용해 3‑D 손 궤적을 추출한다.
Simulate: 각 궤적에 대해, 로봇 그리퍼가 기록된 손 자세에서 목표 객체를 잡으려는 빠른 물리 시뮬레이션을 실행한다. 시뮬레이터는 grasp suitability 라벨을 반환한다 (1 = 안정적 & 작업‑호환, 0 = 실패).
Imitate:
- Grasp Selector: 경량 신경망이 객체 기하학 및 장면 컨텍스트로부터 적합도 라벨을 예측하도록 학습되어, 실질적으로 작업‑인식 grasp generator가 된다.
- Trajectory Imitator: 별도의 네트워크(예: conditional diffusion model)가 선택된 grasp pose에 조건화된 post‑grasp 동작을 재현하도록 학습한다.
Execution: 실행 시, 로봇은 먼저 grasp selector에 feasible grasp를 질의하고, 그 자세를 trajectory imitator에 전달하여 인간 동작을 모방하는 joint‑space 궤적을 출력한다.

모든 구성 요소는 표준 지도 학습 손실(그립 적합도에 대한 cross‑entropy, 궤적 회귀에 대한 L2)로 학습되며, 강화 학습이나 on‑policy rollouts가 필요하지 않다.

결과 및 발견

성공률 향상: 6‑DOF 매니퓰레이터에서 PSI는 5개의 벤치마크 작업에 대해 **≈85 %**의 작업 완료율을 달성했으며, 동일한 모방 모듈을 사용한 일반적인 grasp generator를 사용할 경우 **≈55 %**에 불과했습니다.
데이터 효율성: 최고 성능에 도달하기 위해서는 약 2 k개의 필터링된 궤적만 필요했으며, 이는 시뮬레이션 필터의 가치를 강조합니다.
일반화: 학습된 grasp selector는 형태와 질감이 다른 보지 않은 객체들에 대해서도 성공률이 단 7 % 감소하여, 모델이 특정 사례를 암기하기보다는 작업에 관련된 grasp 특징을 포착한다는 것을 보여줍니다.
소거 실험: 시뮬레이션 필터를 제거하고(즉, 모든 원시 궤적에 대해 grasp selector를 학습) 전체 성공률이 20 % 감소했으며, 이는 작업 지향적인 grasp 라벨링이 핵심임을 확인시켜 줍니다.

실용적 함의

Rapid skill onboarding: 기업은 원하는 작업을 수행하는 인간의 공개 영상을 간단히 제공함으로써 새로운 조작 능력을 빠르게 구축할 수 있다—로봇 자체에서 시연을 직접 제작할 필요가 없다.
Reduced data collection cost: 비용이 많이 드는 “robot‑in‑the‑loop” 데이터 수집 단계를 없애고, 엔지니어링 자원을 고수준 시스템 통합에 활용할 수 있다.
Modular deployment: grasp selection과 motion imitation이 분리되어 있기 때문에, 개발자는 전체 스택을 재학습하지 않고도 더 나은 grasp planner(예: analytic methods)나 더 표현력이 풍부한 imitator(예: transformer‑based policies)를 교체할 수 있다.
Safety and reliability: 시뮬레이션 필터가 sanity check 역할을 수행하여 물리적으로 불가능하거나 위험한 grasp를 로봇이 시도하지 않도록 방지한다. 이는 창고나 가정과 같은 비구조화된 환경에서 특히 유용하다.
Scalable continuous learning: 새로운 인간 영상이 제공되면(예: 사용자 생성 콘텐츠) 파이프라인이 자동으로 이를 수집하여 로봇의 스킬 레퍼토리를 지속적으로 확장한다.

제한 사항 및 향후 작업

Simulation fidelity: 잡기 적합성 라벨은 물리 시뮬레이터의 정확도에 의존합니다; 마찰 모델링 등에서의 불일치가 가끔씩 false positive/negative를 초래할 수 있습니다.
Hand‑to‑gripper transfer: 이 접근법은 인간 손 자세를 로봇 엔드‑이펙터에 비교적 단순하게 매핑한다고 가정합니다; 매우 정교한 작업은 여전히 운동학적 차이로 인해 어려움을 겪을 수 있습니다.
Limited to prehensile tasks: 잡는 동작이 아닌 조작(예: 밀기, 변형 가능한 물체 다루기)은 현재 범위에 포함되지 않습니다.
Future directions: 저자들은 도메인‑랜덤화 시뮬레이션을 통합하여 견고성을 향상하고, 프레임워크를 다중 객체 장면으로 확장하며, 초기 배포 후 로봇에서 자체 지도 학습을 통한 정제를 탐구할 것을 제안합니다.

저자

Albert J. Zhai
Kuo-Hao Zeng
Jiasen Lu
Ali Farhadi
Shenlong Wang
Wei-Chiu Ma

논문 정보

arXiv ID: 2602.13197v1
Categories: cs.RO, cs.CV, cs.LG
Published: 2026년 2월 13일
PDF: Download PDF

[Paper] 효과적인 것을 모방하기: Simulation-Filtered Modular Policy Learning from Human Videos

Overview

Key Contributions

방법론

결과 및 발견

실용적 함의

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] Diffusion Models를 활용한 얼굴 임베딩 기반 실감 나는 얼굴 재구성

[Paper] 악천후 조건에서 자율주행 차량의 Object Detection 견고성

[Paper] 의미론적 청킹과 자연 언어의 엔트로피

[Paper] FlexAM: 유연한 Appearance-Motion 분해를 통한 다목적 비디오 생성 제어