[Paper] VideoWorld 2: 실제 비디오에서 전이 가능한 지식 학습

발행: 2일 전 (2026년 2월 11일 오전 03:58 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2602.10102v1

개요

논문 VideoWorld 2는 지능형 에이전트에게 핵심적인 과제인 원시, 라벨이 없는 실제 세계 비디오에서 재사용 가능한 지식을 추출하고 이를 새로운 작업에 재활용하는 문제를 다룹니다. “사물이 어떻게 보이는가”와 “사물이 어떻게 움직이는가”를 분리함으로써, 저자들은 복잡한 조작 문제에서 성공률을 크게 향상시켰으며—이전 비디오 기반 방법에 비해 최대 70 % 개선을 달성했으며—길고 일관된 실행 비디오도 생성합니다.

주요 기여

Dynamic‑enhanced Latent Dynamics Model (dLDM) – 시각적 외관을 사전 학습된 비디오 확산 모델에 오프로드하고, 작업 관련 움직임에 초점을 맞춘 컴팩트한 잠재 역학 공간을 학습하는 두 단계 아키텍처.
실제 세계 비디오에서 전이 학습에 대한 최초 대규모 연구, 이전의 합성 전용 “VideoWorld” 벤치마크를 확장.
자동회귀 잠재 정책 학습, 장기 추론 및 다초 실행 비디오 생성 가능.
두 가지 측면에서의 실증 검증: (1) 실제 비디오 데이터를 이용한 조작 작업 수작업, (2) Open‑X 데이터셋을 통한 로봇 학습, CALVIN 벤치마크에서 큰 향상 입증.
코드, 데이터, 사전 학습 모델의 오픈소스 공개를 통해 재현성 및 후속 연구 촉진.

방법론

Visual Appearance Modeling – 최첨단 비디오 확산 모델(대규모 비디오 코퍼스에 사전 학습됨)을 고정된 시각 인코더로 사용합니다. 각 원시 비디오 프레임을 고충실도 시각 잠재 표현으로 변환하여 텍스처, 조명 및 배경 세부 정보를 다시 학습하지 않고 보존합니다.
Latent Dynamics Extraction (dLDM) – 시각 잠재 표현은 가벼운 latent dynamics encoder에 입력됩니다. 이 인코더는 외관을 제거하고 움직임과 관련된 정보(예: 손 궤적, 객체 상태 변화)만을 남기는 방법을 학습합니다. 이 인코더는 원본 비디오를 복원하는 decoder와 함께 공동 학습되어, 동역학 코드가 정확한 비디오 합성을 위해 충분함을 보장합니다.
Autoregressive Policy Modeling – 추출된 동역학 코드는 시계열 데이터로 취급되어 트랜스포머 스타일의 자기 회귀 네트워크로 모델링됩니다. 네트워크는 과거 코드를 기반으로 다음 동역학 코드를 예측함으로써, 임의의 길이의 행동 시퀀스를 생성할 수 있는 정책을 학습합니다.
Transfer to New Tasks – 동역학 공간이 시각적 세부 사항과 분리되어 있기 때문에, 동일한 자기 회귀 정책을 새로운 목표 사양(예: “목재 블록을 조립한다”)에 조건화하여 조명, 배경, 카메라 각도가 다른 환경에서도 실행할 수 있습니다.

전체 파이프라인은 라벨이 없는 비디오 클립에 대해 끝‑끝으로 학습 가능하며, 행동이나 객체 상태에 대한 수동 주석이 전혀 필요하지 않습니다.

결과 및 발견

평가	베이스라인	VideoWorld 2	성공률 향상
실제 손공예 작업 (다단계 조립)	38 %	66 %	+70 %
장기 영상 생성 (≥5 s)	파편화되고, 끊김	부드럽고 일관됨	—
로봇 조작 (Open‑X → CALVIN)	45 %	71 %	+58 %

작업 성공: VideoWorld 2는 특히 정밀한 행동 순서가 필요한 작업에서 기존 비디오‑생성 및 잠재‑역학 접근 방식을 지속적으로 능가합니다.
영상 품질: 생성된 실행 영상은 수십 프레임에 걸쳐 시각적 충실도를 유지하며, 확산 기반 외관 모델이 현실감을 성공적으로 보존하고 역학 모델이 그럴듯한 움직임을 구동함을 보여줍니다.
전이 가능성: Open‑X 데이터셋(일상 조작 영상 모음)에서 학습된 정책은 CALVIN 벤치마크에서 성능을 향상시켜, 잠재 역학 표현이 도메인 간에 일반화됨을 확인합니다.

Practical Implications

Robotics developers는 이제 공개된 비디오 영상(예: YouTube DIY 튜토리얼)에서 손으로 라벨링하지 않고도 조작 정책을 부트스트랩할 수 있어, 데이터 수집 비용을 크게 줄일 수 있습니다.
Simulation‑to‑real transfer: 동역학이 시각에 구애받지 않는 잠재 공간에서 학습되기 때문에, 합성 영상이나 저품질 영상으로 학습된 정책을 최소한의 미세 조정만으로 실제 로봇에 적용할 수 있습니다.
Long‑horizon planning: 자기회귀 잠재 정책은 긴 행동 시퀀스 생성을 가능하게 하여, 자율 조립 라인, 가정용 보조 로봇, 그리고 여러 초에 걸쳐 계획이 필요한 비디오 게임 AI 등 다양한 분야에 활용될 수 있습니다.
Content creation: 압축된 동역학 코드를 통해 일관된 긴 영상을 합성할 수 있는 능력은 자동 영상 편집, 가상 훈련 시뮬레이션, 혹은 안전 테스트를 위한 현실적인 “가정” 시나리오 생성 등에 활용될 수 있습니다.

제한 사항 및 향후 연구

강력한 확산 모델에 대한 의존성: 이 접근법은 고품질 사전학습된 비디오 확산 모델에 접근할 수 있다고 가정합니다; 인코더가 약할 경우 성능이 저하될 수 있습니다.
고동적 장면에 대한 확장성: 매우 빠른 움직임이나 심한 가림 현상은 여전히 동역학 인코더에 도전이 되며, 가끔 예측이 흐트러질 수 있습니다.
목표 조건화 세분성: 현재 실험은 비교적 단순한 목표 명세를 사용합니다; 보다 풍부한 언어 또는 상징적 목표는 아직 연구가 필요한 분야입니다.
실시간 배포: 현재 자동회귀 추론은 오프라인 상태이며, 로봇에서 실행하기 위해 저지연 제어 루프 최적화가 필요합니다.

향후 연구에서는 확산 인코더의 공동 미세조정, 계층적 목표 표현, 그리고 강화학습과의 통합을 탐구하여 인식, 계획, 구동 사이의 실시간 루프를 완성할 수 있습니다.

저자

Zhongwei Ren
Yunchao Wei
Xiao Yu
Guixun Luo
Yao Zhao
Bingyi Kang
Jiashi Feng
Xiaojie Jin

논문 정보

arXiv ID: 2602.10102v1
분류: cs.CV
발행일: 2026년 2월 10일
PDF: PDF 다운로드

[Paper] VideoWorld 2: 실제 비디오에서 전이 가능한 지식 학습

개요

주요 기여

방법론

결과 및 발견

Practical Implications

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] 놀라움의 스트로크: 점진적 의미 착시 in Vector Sketching

[Paper] UniT: 통합 멀티모달 Chain-of-Thought Test-time Scaling

[Paper] MonarchRT: 실시간 비디오 생성을 위한 효율적인 어텐션

[Paper] On-Policy SFT를 향하여: Distribution Discriminant Theory 및 LLM Training에서의 응용