‘Do as I Do’ 논문: 일상 영상의 민첩 조작 데이터
Overview
로봇 조작 데이터를 대규모로 생성하는 방법은 무엇인가요? 특히 민첩한 다지 손가락 손과 같은 인간 유사 플랫폼에서는 더욱 그렇습니다. 최근 인간의 동영상 학습이 이 질문에 대한 가능성이 높은 답으로 부상했습니다. 그러나 손-물체 상호 작용을 추정하고 인간에서 로봇으로의 전이 간극을 넘어서는 어려움이 robot manipulation 데이터로 풍부한 모노클릭 RGB 전용 인간 동영상을 주요 자료원으로 활용하는 것을 방해했습니다. 본 연구에서는 DO AS I DO라는 알고리즘을 제시합니다. 이 알고리즘은 모노클릭 RGB 인간 동영상을 다지 손가락 로봇 손에 재구성하고 리타게팅합니다. DO AS I DO는 다양한 안경형 및 외부형 실세계 영상 원본에서 손-물체 상호 작용을 재구성합니다. 이후 알고리즘은 이러한 상호 작용 추정치를 실제 세계에서 실행 가능한 동작 시퀀스로 리타게팅하여, 이 disparate human videos 로부터 로봇 완전 조작 데이터를 생성합니다. 전체적으로 DO AS I DO는 이전 최첨단 기술이 손-물체 상호 작용 추정 및 RGB 비디오에서 민첩한 조작 궤적을 추출하는 데 우수함을 보였으며, 이는 실증 데이터와 온라인으로 수집된 영상 클립을 포함한 데이터셋에 대한 실험을 통해 확인되었습니다. 우리의 실험을 통해 인간 데이터를 조작에 활용하기 위한 효과적인 플랜을 제안할 수 있었습니다.
Key Contributions
이 논문은 다음과 같은 분야에서 연구를 제시합니다:
- cs.RO
- cs.CV
Methodology
자세한 방법については 전체 논문을 참고하십시오.
Practical Implications
이 연구는 cs.RO의 발전에 기여합니다.
Authors
- Bhawna Paliwal
- Haritheja Etukuru
- William Liang
- Pieter Abbeel
- Nur Muhammad Mahi Shafiullah
- Jitendra Malik
Paper Information
- arXiv ID: 2606.19333v1
- 분야: cs.RO, cs.CV
- 발행일: 2026년 6월 17일
- PDF: PDF 다운로드