‘Do as I Do’ 논문: 일상 영상의 민첩 조작 데이터

발행: 1일 전 (2026년 6월 18일 AM 02:57 GMT+9)

3 분 소요

원문: arXiv

출처: arXiv - 2606.19333v1

Overview

로봇 조작 데이터를 대규모로 생성하는 방법은 무엇인가요? 특히 민첩한 다지 손가락 손과 같은 인간 유사 플랫폼에서는 더욱 그렇습니다. 최근 인간의 동영상 학습이 이 질문에 대한 가능성이 높은 답으로 부상했습니다. 그러나 손-물체 상호 작용을 추정하고 인간에서 로봇으로의 전이 간극을 넘어서는 어려움이 robot manipulation 데이터로 풍부한 모노클릭 RGB 전용 인간 동영상을 주요 자료원으로 활용하는 것을 방해했습니다. 본 연구에서는 DO AS I DO라는 알고리즘을 제시합니다. 이 알고리즘은 모노클릭 RGB 인간 동영상을 다지 손가락 로봇 손에 재구성하고 리타게팅합니다. DO AS I DO는 다양한 안경형 및 외부형 실세계 영상 원본에서 손-물체 상호 작용을 재구성합니다. 이후 알고리즘은 이러한 상호 작용 추정치를 실제 세계에서 실행 가능한 동작 시퀀스로 리타게팅하여, 이 disparate human videos 로부터 로봇 완전 조작 데이터를 생성합니다. 전체적으로 DO AS I DO는 이전 최첨단 기술이 손-물체 상호 작용 추정 및 RGB 비디오에서 민첩한 조작 궤적을 추출하는 데 우수함을 보였으며, 이는 실증 데이터와 온라인으로 수집된 영상 클립을 포함한 데이터셋에 대한 실험을 통해 확인되었습니다. 우리의 실험을 통해 인간 데이터를 조작에 활용하기 위한 효과적인 플랜을 제안할 수 있었습니다.

Key Contributions

이 논문은 다음과 같은 분야에서 연구를 제시합니다:

cs.RO
cs.CV

Methodology

자세한 방법については 전체 논문을 참고하십시오.

Practical Implications

이 연구는 cs.RO의 발전에 기여합니다.

Authors

Bhawna Paliwal
Haritheja Etukuru
William Liang
Pieter Abbeel
Nur Muhammad Mahi Shafiullah
Jitendra Malik

Paper Information

arXiv ID: 2606.19333v1
분야: cs.RO, cs.CV
발행일: 2026년 6월 17일
PDF: PDF 다운로드

‘Do as I Do’ 논문: 일상 영상의 민첩 조작 데이터

Overview

Key Contributions

Methodology

Practical Implications

Authors

Paper Information

관련 글

네이티브 액티브 퍼셉션을 통한 멀티모달 이해 추론

[논문] 현재 관측을 넘어서: 제어 가능한 비마르코 게임에서의 다중모달 대형 언어 모델 평가

[논문] 참조 기반 다중 스피커 오디오 씬 생성

논문 NeuMesh++: 디센틀드 뉴럴 메시 기반 암시적 필드로 볼륨 편집을 보다 유연하고 효율적으로