[Paper] World Models는 Human Videos를 활용해 Dexterous Manipulation을 수행할 수 있다

발행: (2025년 12월 16일 오전 03:37 GMT+9)
10 min read
원문: arXiv

Source: arXiv - 2512.13644v1

번역을 진행하려면 실제 텍스트(본문, 초록, 섹션 등)를 제공해 주시겠어요?
코드 블록이나 URL은 번역하지 않고 그대로 유지하겠습니다. 텍스트를 알려주시면 바로 한국어로 번역해 드리겠습니다.

개요

DexWM (Dexterous Manipulation World Model)은 손이나 로봇 그리퍼가 물체와 어떻게 상호작용할지를 예측하는 새로운 AI 시스템으로, 방대한 공개 비디오 데이터를 활용해 학습합니다. 인간 및 비정교 로봇 영상을 총 900시간 이상 학습함으로써, 모델은 미세한 손가락 움직임의 결과를 사전에 예측할 수 있게 되며, 이를 통해 실제 환경에서의 잡기, 놓기, 도달과 같은 작업에서 최첨단 정책들을 능가하는 제로샷 로봇 조작을 구현합니다.

핵심 기여

  • 크로스‑도메인 비디오 사전‑학습: 대규모 이질적인 비디오 코퍼스(인간 손 + 단순 로봇 비디오)를 활용하여 섬세한 조작 데이터셋의 부족 문제를 극복함.
  • 손을 위한 잠재‑공간 월드 모델: DexWM을 도입하여 과거 잠재 상태와 상세한 손가락 수준 행동을 조건으로 장면의 다음 잠재 상태를 예측함.
  • 손‑일관성 보조 손실: 손 자세 재구성을 정확히 강제하는 새로운 손실을 추가하여 미세한 손가락 움직임에 대한 예측 정확도를 향상시킴.
  • 실제 로봇에 대한 제로‑샷 전이: 비디오만으로 학습된 모델을 Franka Panda 팔에 Allegro 손을 장착한 실제 로봇에 적용하여, 다양한 조작 벤치마크에서 Diffusion Policy 대비 50 % 이상의 성능 향상을 달성함.
  • 다중모달 월드 모델과의 벤치마킹: 텍스트, 내비게이션 명령, 혹은 전신 행동을 조건으로 하는 기존 모델들에 비해 우수한 성능을 입증함.

방법론

  1. 데이터 수집 및 전처리 – 저자들은 두 가지 출처에서 약 900 시간 분량의 영상을 모았다: (a) 인간 손‑중심 클립(예: YouTube 튜토리얼) 및 (b) 거친 조작을 포함하지만 정교한 손가락이 없는 로봇 영상. 프레임은 잘라내고 정규화했으며, 가능한 경우 행동 메타데이터(예: 로봇 클립의 관절 각도)와 짝지었다.
  2. 잠재 표현 – 컨볼루션 인코더가 각 프레임을 압축된 잠재 벡터로 매핑한다. 이 잠재 공간은 인간과 로봇 도메인 모두에서 공유되어 모델이 “손‑물체 상호작용”에 대한 통합된 개념을 학습할 수 있게 한다.
  3. 월드 모델 동역학 – 순환 신경망(예: GRU/LSTM)이 과거 잠재 상태 시퀀스와 현재 정교한 행동(30‑DOF 손가락 관절 명령)을 받아 다음 잠재 상태를 예측한다.
  4. 보조 손‑일관성 손실 – 동시에 디코더가 예측된 잠재 상태로부터 손 자세를 복원한다. 이 손실은 복원된 자세와 실제 자세(가능한 경우) 또는 운동학적 사전 사이의 차이를 벌점으로 부과하여, 잠재 동역학이 세밀한 손가락 정보를 유지하도록 한다.
  5. 학습 체계 – 모델은 (i) 잠재 예측 손실, (ii) 손‑일관성 손실, (iii) 부드러운 동역학을 장려하는 정규화 항의 가중합으로 엔드‑투‑엔드 학습된다. 작업 특정 감독(예: “집어‑놓기”)은 사용되지 않는다.
  6. 제로샷 배포 – 추론 시 로봇 컨트롤러가 행동을 샘플링하고 이를 DexWM에 입력한 뒤, 예측된 미래 잠재 상태를 이용해 원하는 목표(예: 목표 자세에 물체)를 달성하도록 행동을 선택한다. 이는 로봇에 대한 추가 파인튜닝 없이 수행된다.

Results & Findings

작업 (Franka + Allegro)Diffusion Policy (기본)DexWM (zero‑shot)Relative ↑
잡기38 % success62 %+64 %
배치34 % success58 %+71 %
도달45 % success71 %+58 %
평균39 %63 %+62 %
  • 예측 정확도: 보류된 비디오 시퀀스에서 DexWM은 시각적 특징만 예측하는 기존 월드 모델에 비해 잠재 예측 오류를 약 30 % 감소시켰습니다.
  • 일반화: 모델은 보지 못한 객체, 새로운 손‑객체 접촉, 그리고 훈련 중에 보지 못한 작업들을 성공적으로 처리했으며, 학습된 잠재 역학의 강점을 확인했습니다.
  • 소거 실험: hand‑consistency 손실을 제거하면 조작 성공률이 약 15 % 감소하여 미세 제어에 대한 중요성을 강조합니다.

Practical Implications

  • Rapid prototyping of robot skills: 개발자는 이제 공개된 비디오를 사용해 조작 모델을 학습할 수 있어, 전통적으로 계측된 로봇 실행을 필요로 하는 비용이 많이 드는 데이터‑수집 파이프라인을 우회할 수 있습니다.
  • Cross‑platform transfer: 잠재 공간이 기본 하드웨어에 구애받지 않기 때문에, 동일한 DexWM 모델을 최소한의 적응만으로도 다양한 로봇 팔이나 손 디자인에 재사용할 수 있습니다.
  • Improved simulation‑to‑real transfer: 월드‑모델 접근 방식은 잠재 공간에서 직접 미래 상태를 예측하며, 이는 모델‑기반 RL 루프에 통합하거나 실시간 컨트롤러에서 안전 “예측”으로 활용될 수 있습니다.
  • Potential for mixed‑reality teleoperation: 인간 운영자가 비디오로 작업을 시연하면, DexWM이 기본 손가락 움직임을 추론하고 로봇 명령을 생성하여 직관적인 스킬 공유를 가능하게 합니다.

제한 사항 및 향후 작업

  • 포즈 주석에 대한 의존: 손‑일관성 손실은 정확한 손 포즈 데이터에서 이점을 얻지만, 야생 비디오에서는 항상 제공되지 않는다; 완전히 주석이 없는 영상으로 확장하려면 자체‑감독 포즈 추정이 필요할 수 있다.
  • 실시간 제어에서의 지연: 임베디드 하드웨어에서 인코더‑리커런트‑디코더 파이프라인을 높은 주파수(>30 Hz)로 실행하는 것은 여전히 어려움이며, 추론 속도 최적화는 해결되지 않은 엔지니어링 문제이다.
  • 고동적 접촉에 대한 일반화: 매우 빠르거나 충격이 큰 상호작용(예: 망치질)은 다루지 않았으며, 모델을 고주파 접촉 역학을 처리하도록 확장하는 것이 유망한 방향이다.
  • 다중 객체 장면: 현재 실험은 단일 객체 조작에 초점을 맞추고 있으며, 가림이 있는 복잡한 환경으로 확장하려면 보다 풍부한 장면 표현이나 어텐션 메커니즘이 필요할 가능성이 있다.

DexWM은 방대한 상용 비디오를 정교한 로봇 손을 위한 강력한 세계 모델로 전환할 수 있음을 보여주며, 전통적인 데이터 수집 병목 현상 없이 개발자들이 로봇에 세밀한 조작 능력을 부여할 수 있는 실용적인 경로를 열어준다.

저자

  • Raktim Gautam Goswami
  • Amir Bar
  • David Fan
  • Tsung-Yen Yang
  • Gaoyue Zhou
  • Prashanth Krishnamurthy
  • Michael Rabbat
  • Farshad Khorrami
  • Yann LeCun

논문 정보

  • arXiv ID: 2512.13644v1
  • 분류: cs.RO, cs.AI, cs.CV
  • 발표일: 2025년 12월 15일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »