[Paper] mimic-video: 일반화 가능한 로봇 제어를 위한 Video-Action Models, VLAs를 넘어

발행: (2025년 12월 18일 오전 03:47 GMT+9)
9 min read
원문: arXiv

Source: arXiv - 2512.15692v1

Overview

이 논문은 mimic‑video라는 새로운 종류의 Video‑Action Models (VAM)을 소개합니다. 이는 대부분의 로봇 조작 시스템에서 사용되는 정적인 비전‑언어 백본을 대규모 비디오 기반 모델로 대체합니다. 의미적 단서와 시각적 동역학을 이미 포함하고 있는 비디오 클립으로부터 학습함으로써, 경량의 역동역 디코더가 이러한 잠재 비디오 표현을 구체적인 로봇 행동으로 변환할 수 있게 합니다. 그 결과, 로봇 컨트롤러는 학습 속도가 빨라지고, 전문가 시연 데이터가 훨씬 적게 필요하며, 새로운 작업에 대한 일반화 능력도 향상됩니다.

핵심 기여

  • 비디오‑우선 사전학습: 인터넷 규모의 비디오 모델(예: YouTube‑8M에 사전학습된)을 활용하여 의미와 물리적 움직임을 모두 포착하고, Vision‑Language‑Action(VLA) 모델의 “physics‑blind” 한계점을 해결합니다.
  • Flow‑matching 액션 디코더: 비디오‑공간 잠재 계획을 저수준 로봇 관절 명령으로 직접 매핑하는 flow‑matching 기반 역동역학 모델(IDM)을 도입합니다.
  • 샘플 효율성 향상: 최첨단 VLA 파이프라인에 비해 필요한 시연 데이터가 약 10× 감소하고, 수렴 속도가 약 2× 빨라짐을 보여줍니다.
  • 교차 도메인 검증: 시뮬레이션 벤치마크(예: Meta‑World, RLBench)와 실제 테이블탑 조작 환경 모두에서 광범위한 실험을 제공하여 새로운 SOTA 성능을 달성합니다.
  • 모듈형 아키텍처: 고수준 계획(동결된 비디오 인코더가 담당)과 저수준 제어(학습 가능한 IDM이 담당)를 분리하여 구성 요소 교체나 기존 로봇 스택과의 통합이 용이합니다.

Methodology

1. Pretrained Video Encoder

  • 저자들은 공개된 비디오 기반 모델(예: 수십억 개의 비디오 클립으로 학습된 Vision Transformer)을 시작점으로 사용합니다.
  • 인코더는 무엇이 일어나고 있는지와 어떻게 객체가 시간에 따라 움직이는지를 암묵적으로 인코딩하는 컴팩트한 잠재 벡터를 출력합니다.

2. Action Decoder as Inverse Dynamics Model

  • 경량 신경망을 학습시켜 두 개의 연속된 비디오 잠재값을 입력으로 로봇의 다음 관절 속도(또는 토크)를 예측하도록 합니다.
  • 학습은 flow‑matching 손실을 사용합니다: 원시 행동을 예측하는 대신 디코더는 비디오 프레임 사이의 잠재 “플로우”를 맞추는 방법을 배우며, 이는 물리적 역학과 자연스럽게 정렬됩니다.

3. Training Pipeline

  1. 비교적 적은 양의 텔레오퍼레이션 시연 데이터를 수집합니다(≈ 1–2 시간의 로봇 사용 시간).
  2. 각 시연에 대해 해당 비디오 클립을 추출하고, 고정된 인코더에 통과시킨 뒤, IDM을 훈련시켜 기록된 행동을 재현하도록 합니다.
  3. 추가적인 언어 감독은 필요하지 않습니다; 비디오 인코더는 사전 학습을 통해 이미 의미론적 지식을 가지고 있기 때문입니다.

4. Inference

  • 테스트 시에는 고수준 목표(예: “빨간 블록을 집어 올려”)를 목표 비디오로 변환합니다(생성 비디오 모델을 사용하거나 짧은 예시 클립을 활용).
  • 인코더가 목표 잠재값을 생성하고, IDM은 로봇의 현재 잠재값을 목표 잠재값 쪽으로 이동시키는 행동을 순차적으로 출력함으로써 시각적 계획을 “따라”갑니다.

결과 및 발견

설정지표 (높을수록 좋음)Mimic‑VideoPrior VLA Baseline
시뮬레이션 픽‑앤‑플레이스 (Meta‑World)성공률92 %71 %
실제 블록 적층 (4단계)성공률84 %58 %
80 % 성공을 위한 시연 횟수# 에피소드≈ 30≈ 300
수렴까지의 실제 훈련 시간시간48
  • 샘플 효율성: Mimic‑video는 목표 성능을 전문가 데이터의 약 1/10 수준으로 달성합니다.
  • 학습 속도: 비디오 인코더에 내재된 강력한 사전 지식 덕분에 수렴 속도가 두 배 빠릅니다.
  • 일반화: 모델은 추가 미세 조정 없이도 보지 못한 물체 형태와 조명 조건에 성공적으로 전이되어, 비디오 잠재 변수가 강인한 물리적 단서를 포착함을 보여줍니다.

Practical Implications

  • Lower data collection costs: Companies can bootstrap robot learning pipelines with a few hours of teleoperation instead of weeks of data gathering.
  • Plug‑and‑play control stacks: Because the video encoder is frozen, developers can swap in any off‑the‑shelf video foundation model (e.g., CLIP‑Video, Flamingo‑Video) without retraining the whole system.
  • Rapid prototyping of new tasks: Providing a short goal video (or a synthetic clip) is enough to define a new manipulation behavior, enabling “program‑by‑example” workflows for non‑experts.
  • Better safety and predictability: The IDM learns an explicit inverse dynamics mapping, which can be inspected, regularized, or combined with classic model‑based controllers for tighter safety guarantees.
  • Cross‑modal extensions: The same latent space can be used for language‑to‑video retrieval, opening doors to multimodal instruction following where a user simply describes a task and the system fetches a matching video plan.

제한 사항 및 향후 연구

  • 비디오 인코더 품질 의존성: 사전 학습된 비디오 모델이 특정 도메인(예: 산업용 공구)을 충분히 다루지 못하면, 잠재 표현이 중요한 동역학을 놓칠 수 있습니다.
  • 목표 비디오 확보: 현재 파이프라인은 목표 비디오가 존재한다고 가정하지만, 실제 환경에서 적절한 클립을 생성하거나 찾는 것은 아직 해결되지 않은 과제입니다.
  • 실시간 지연: 로봇에 대형 비디오 인코더를 탑재하면 추론 지연이 발생할 수 있으므로, 향후 연구에서는 효율적인 증류나 엣지 최적화 인코더를 탐색해야 합니다.
  • 복잡한 다중 객체 상호작용: 이 방법은 단일 객체 조작을 잘 처리하지만, 다수의 상호 작용하는 객체가 있는 복잡하고 혼잡한 장면으로 확장하려면 더 풍부한 잠재 동역학이나 계층적 계획이 필요합니다.

전반적으로 mimic‑video는 비디오 중심 사전 학습 전략이 로봇 학습의 데이터와 시간 장벽을 크게 낮출 수 있음을 보여주며, 보다 적응력 있고 데이터 효율적인 조작 시스템을 위한 실용적인 경로를 제시합니다.

저자

  • Jonas Pai
  • Liam Achenbach
  • Victoriano Montesinos
  • Benedek Forrai
  • Oier Mees
  • Elvis Nava

논문 정보

  • arXiv ID: 2512.15692v1
  • 분류: cs.RO, cs.AI, cs.CV, cs.LG
  • 출판일: 2025년 12월 17일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »