[Paper] RoboMirror: 모방하기 전에 이해하라 for Video to Humanoid Locomotion

발행: (2025년 12월 30일 오전 02:59 GMT+9)
10 min read
원문: arXiv

Source: arXiv - 2512.23649v1

Overview

RoboMirror는 인간형 로봇이 원시 비디오—예를 들어 1인칭(주관적) 클립이든 3인칭 녹화든—에서 직접 걸음걸이와 행동을 학습하도록 하는 선구적인 프레임워크입니다. 기존의 모션 캡처 리타게팅이나 텍스트‑투‑액션 변환 같은 중간 단계 없이도 가능합니다. 대규모 비전‑언어 모델(VLM)과 확산 기반 제어 정책을 결합함으로써, 시스템은 먼저 비디오에서 시각적 움직임 의도를 추출하고, 이어서 물리적으로 타당하고 의미적으로 일치하는 보행을 생성합니다. 이는 시각 이해와 로봇 제어 사이의 오랜 격차를 메우며, 텔레프레즌스, 원격 감독, 직관적인 로봇 프로그래밍 등 새로운 가능성을 열어줍니다.

주요 기여

  • First “understand‑before‑imitate” video‑to‑humanoid pipeline: 명시적인 포즈 재구성과 재타깃팅을 우회하는 최초의 “understand‑before‑imitate” 비디오‑투‑휴머노이드 파이프라인.
  • Vision‑language intent distillation: 사전 학습된 VLM을 사용해 원시 비디오 스트림을 압축된 움직임‑의도 임베딩으로 변환합니다.
  • Diffusion‑based locomotion policy: 의도 임베딩을 조건으로 하여 전체 몸통 휴머노이드를 위한 연속적이고 물리적으로 일관된 관절 명령을 생성합니다.
  • Real‑time telepresence demo: 착용형 카메라의 1인칭 비디오가 원격 휴머노이드를 구동하며, 기존 3인칭 파이프라인에 비해 ~80 % 낮은 제어 지연을 보입니다.
  • Quantitative gains: 벤치마크 내비게이션 및 장애물 회피 시나리오에서 최첨단 베이스라인 대비 3.7 % 높은 작업 성공률을 달성했습니다.
  • Open‑source implementation (code, pretrained models, and a ROS‑compatible driver) 을 공개하여 재현성과 커뮤니티 확장을 지원합니다.

방법론

  1. Video Ingestion – 시스템은 30 fps의 egocentric(주관적) 또는 third‑person(제3자) RGB 비디오를 받아들인다. 깊이 데이터나 스켈레톤 데이터는 필요하지 않다.
  2. Intent Extraction – 대규모 비전‑언어 모델(e.g., CLIP‑ViT 또는 BLIP)이 짧은 비디오 클립(≈1 s)을 처리하고 “앞으로 걷기”, “왼쪽으로 회전”, “장애물 넘기”와 같은 고수준 의미를 포착하는 motion‑intent vector를 출력한다.
  3. Diffusion Policy – 시뮬레이션된 인간형 궤적 대규모 코퍼스에 대해 학습된 조건부 디퓨전 모델이 인텐트 벡터를 받아 잠재 행동 시퀀스를 반복적으로 디노이징하여 로봇의 역학 및 균형 제약을 만족하는 joint torque commands로 변환한다.
  4. Control Loop – 생성된 토크 명령은 100 Hz로 로봇의 저수준 컨트롤러에 스트리밍된다. 가벼운 피드백 필터가 작은 드리프트를 보정하지만, 핵심 행동은 전적으로 비디오에서 추출된 인텐트에 의해 구동된다.
  5. Training Regime – 디퓨전 정책은 물리 시뮬레이터(MuJoCo/IsaacGym)에서 강화학습 스타일 보상 형태(안정성, 발 위치 정확도, 작업 완료)를 사용해 오프라인으로 학습된다. 인텐트 인코더는 고정된 상태로 두어 사전 학습된 VLM의 일반화 능력을 활용한다.

Results & Findings

MetricRoboMirrorBaseline (text‑to‑motion)Baseline (pose‑mimic)
Control latency (ms)120600540
Task success rate (%)87.383.679.2
Average energy consumption (J)1.121.281.31
Qualitative realism (user study)4.6/53.9/53.5/5
  • Latency reduction: 포즈 추출 및 리타게팅을 없애면서, 엔드‑투‑엔드 파이프라인이 약 120 ms에 실행되어 거의 실시간 텔레오퍼레이션이 가능해졌습니다.
  • Higher success: 의도 기반 정책이 장면 의미(예: “걸어넘기” vs. “통과하기”)를 더 잘 반영해 작업 완료율이 3.7 % 상승했습니다.
  • Energy efficiency: 보다 자연스러운 동작이 불필요한 관절 토크를 줄여 전력을 절감합니다—배터리 구동 휴머노이드에게 중요한 요소입니다.
  • User perception: 참가자들은 RoboMirror의 동작을 기존 방법보다 더 “인간‑같고” “직관적인 제어”라고 평가했습니다.

Practical Implications

  • Telepresence & Remote Work: 작업자는 머리에 장착한 카메라를 이용해 위험하거나 접근이 어려운 환경(예: 원자력 발전소, 재난 지역)에서 인간형 로봇을 최소한의 지연으로 제어할 수 있으며, 특수 모션‑캡처 장비가 필요하지 않습니다.
  • Rapid Prototyping of Behaviors: 개발자는 짧은 비디오 클립으로 원하는 보행 스타일을 시연하면 로봇이 이를 그대로 재현하여 서비스 로봇 응용 분야의 반복 주기를 크게 단축할 수 있습니다.
  • Cross‑Domain Transfer: 의도 인코더가 언어에 구애받지 않기 때문에, 동일한 파이프라인을 로봇 형태(예: 이족보행 vs. 사족보행)를 교체하고 diffusion policy의 dynamics model만 바꾸면 재사용할 수 있습니다.
  • Reduced Engineering Overhead: 포즈‑리타게팅 파이프라인을 직접 설계하거나 방대한 텍스트‑액션 어휘를 유지할 필요가 없으며, 시스템은 지속적으로 개선되는 오프‑더‑쉘프 VLM을 활용합니다.
  • Integration with Existing Stacks: 제공된 ROS 노드는 /camera/image_raw를 구독하고 /humanoid_controller/command에 조인트 명령을 퍼블리시하므로, NASA Valkyrie, Boston Dynamics Atlas와 같은 대부분의 연구용 인간형 플랫폼에 바로 적용할 수 있습니다.

제한 사항 및 향후 연구

  • VLM 일반화 의존: 비디오에 비정상적인 시점이나 심한 가림이 포함될 경우 의도 추출 품질이 저하됩니다; 도메인 특화 데이터에 대한 파인‑튜닝이 도움이 될 수 있습니다.
  • 시뮬레이션‑실제 격차: 확산 정책은 시뮬레이션에서 학습되지만, 실제 하드웨어로 전이하려면 동역학 파라미터와 안전 검증을 신중히 보정해야 합니다.
  • 제한된 시간 범위: 현재 의도 벡터는 약 1 초 분량의 비디오를 요약합니다; 장기 계획(예: 복잡한 미로 탐색)에는 계층적 의도 모델링이 필요합니다.
  • 다중 에이전트 시나리오 확장성: 단일 비디오 피드에서 여러 로봇을 조정하도록 프레임워크를 확장하는 것은 아직 해결되지 않은 과제입니다.

RoboMirror시각적 이해가 인간형 보행의 주요 동력이 될 수 있음을 보여주며, “포즈 복제”에서 “의도 해석”으로 패러다임을 전환합니다. VLM이 지속적으로 개선됨에 따라, 우리가 매일 촬영하는 비디오에 직접 기반한 더욱 풍부하고 신뢰성 높은 로봇 행동을 기대할 수 있습니다.

저자

  • Zhe Li
  • Cheng Chi
  • Yangyang Wei
  • Boan Zhu
  • Tao Huang
  • Zhenguo Sun
  • Yibo Peng
  • Pengwei Wang
  • Zhongyuan Wang
  • Fangzhou Liu
  • Chang Xu
  • Shanghang Zhang

논문 정보

  • arXiv ID: 2512.23649v1
  • Categories: cs.RO, cs.CV
  • Published: 2025년 12월 29일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »