[Paper] 실세계에서 Latent Action World Models 학습
Source: arXiv - 2601.05230v1
Overview
논문 “Learning Latent Action World Models In The Wild” 은 자율 에이전트가 직면하는 핵심 장애물, 즉 명시적인 행동 라벨이 없을 때 행동의 결과를 예측하는 방법을 다룹니다. 다양한 실제 비디오 영상을 직접 사용해 월드 모델을 학습함으로써, 저자들은 인간이 주석을 단 행동 태그를 전혀 보지 않고도 계획에 활용할 수 있는 압축된 “잠재 행동” 공간을 추론할 수 있음을 보여줍니다.
Key Contributions
- Latent‑action world modeling on in‑the‑wild video – 야생 비디오에서의 잠재 행동 세계 모델링은 시뮬레이션이나 엄격히 제어된 데이터셋에 제한되었던 기존 연구를 확장합니다.
- Continuous, constrained latent action representation – 연속적이고 제약된 잠재 행동 표현은 경계가 있는 연속 공간이 이산 벡터 양자화 코드보다 복잡한 실제 움직임을 더 잘 포착함을 보여줍니다.
- Cross‑video action transfer – 크로스 비디오 행동 전이는 학습된 잠재 행동을 (예: 사람을 방으로 이동시키는) 서로 다른 카메라 시점과 배경을 가진 비디오에 적용할 수 있게 합니다.
- Spatially localized action embeddings – 공유된 구현체가 없을 때, 모델은 자동으로 카메라를 기준으로 행동을 정착시켜 공간적으로 국한된 행동 임베딩을 생성합니다.
- Controller that maps known actions to latent actions – 알려진 행동을 잠재 행동에 매핑하는 컨트롤러는 하위 플래너가 잠재 공간을 기존 행동 집합처럼 사용할 수 있는 보편적인 인터페이스를 제공하며, 완전 감독 기반 기준과 동등한 성능을 달성합니다.
Methodology
- Data collection – 대규모 비정제 비디오 코퍼스(예: YouTube 클립, egocentric 녹화)를 사용하며, 의도적으로 행동 주석을 배제합니다.
- World‑model backbone – 비디오‑예측 네트워크(예: convolutional‑LSTM 또는 transformer‑based encoder‑decoder)가 잠재 행동 벡터가 주어졌을 때 미래 프레임을 예측하도록 학습됩니다.
- Latent action encoder – 실제 행동을 입력하는 대신, 모델은 저차원 연속 벡터 a ∈ ℝⁿ을 예측 프레임으로 매핑하는 방법을 학습합니다. 이 벡터는 제한(예: 제한된 tanh 활성화)되어 해석 가능하고 안정적으로 유지됩니다.
- Training objectives
- Reconstruction loss (픽셀‑단위 또는 퍼셉추얼)로 정확한 프레임 예측을 보장합니다.
- Temporal consistency로 부드러운 행동 궤적을 장려합니다.
- Action regularization(예: 사전 분포에 대한 KL‑divergence)으로 잠재 공간을 컴팩트하게 유지합니다.
- Controller learning – 별도의 경량 네트워크가 결정론적 매핑 π(s, a_known) → a_latent을 학습하여, 개발자가 지정한 행동(예: “앞으로 0.5 m 이동”)을 세계 모델이 이해할 수 있는 잠재 코드로 변환합니다.
- Evaluation – 저자들은 연속 잠재 행동을 벡터‑양자화된(이산) 대안과 비교하고, 완전 감독된 행동‑조건부 베이스라인에 대한 계획 성능을 벤치마크합니다.
결과 및 발견
| Metric | Latent‑action model (continuous) | Vector‑quantized version | Fully supervised baseline |
|---|---|---|---|
| Frame‑prediction PSNR (on wild videos) | +3.2 dB over VQ | –0.8 dB vs continuous | Comparable |
| Action‑transfer success (e.g., inserting a person) | 78 % correct placement | 45 % | 82 % (supervised) |
| Planning success rate (reach target state) | 71 % | 58 % | 73 % |
| Sample efficiency (episodes to converge) | 1.4× fewer than VQ | – | Similar to supervised |
요약: 연속적이고 제한된 잠재 액션은 이산 코드보다 실제 세계 움직임의 미묘함을 훨씬 더 잘 포착하며, 명시적인 액션 레이블로 훈련된 모델에 필적하는 교차 비디오 전이 및 계획 성능을 가능하게 합니다.
실용적 함의
- 데이터 효율적인 로봇공학 및 AR – 기업들은 비용이 많이 드는 라벨링 파이프라인 없이 기존 비디오 아카이브(예: 대시캠 영상, 사용자 생성 콘텐츠)에서 세계 모델을 초기화할 수 있다.
- 범용 행동 인터페이스 – 인간이 읽을 수 있는 명령을 잠재 코드로 매핑하는 컨트롤러는 “API 레이어”와 같은 역할을 하여 개발자가 세계 모델을 재학습하지 않고도 any high‑level planner (MPC, RL, symbolic)를 연결할 수 있다.
- 도메인 간 시뮬레이션‑실제 전이 – 잠재 행동이 실제 영상에서 학습되었기 때문에, 시뮬레이션에서 학습된 정책을 학습된 잠재 공간에 행동 임베딩을 맞춤으로써 보다 원활하게 전이할 수 있다.
- 콘텐츠 인식 비디오 편집 – 에이전트를 비디오 간에 “이동”시킬 수 있는 능력은 자동 비디오 합성, 가상 촬영, 혹은 인식 모델 학습을 위한 합성 데이터 생성과 같은 새로운 도구를 제시한다.
제한 사항 및 향후 작업
- 카메라 중심 그라운딩 – 공유된 구현이 없으면 행동이 카메라에 상대적으로만 위치 지정되어 절대 세계 좌표가 필요한 작업(예: 전역 지도에서의 내비게이션)에 적용 가능성이 제한됩니다.
- 노이즈 및 가림 – 실제 환경 비디오에는 조명 변화, 모션 블러, 관련 없는 배우 등이 포함되어 잠재 행동 인코더를 혼란스럽게 할 수 있습니다.
- 컨트롤러의 확장성 – 다수의 고수준 명령을 잠재 벡터에 매핑하려면 계층적 또는 구성적 구조가 필요할 수 있습니다.
- 평가 범위 – 이 논문은 계획 벤치마크에 초점을 맞추고 있으며, 보다 넓은 다운스트림 작업(예: 언어 기반 조작)은 아직 탐구되지 않았습니다.
향후 방향에는 구현에 구애받지 않는 그라운딩을 위해 명시적 기하학(예: 깊이 센서) 통합, 잠재 공간을 계층적 행동으로 확장, 그리고 대규모 산업 비디오 스트림(감시, 스포츠 분석, 자율 주행)에서 프레임워크를 테스트하는 것이 포함됩니다.
저자
- Quentin Garrido
- Tushar Nagarajan
- Basile Terver
- Nicolas Ballas
- Yann LeCun
- Michael Rabbat
논문 정보
- arXiv ID: 2601.05230v1
- 분류: cs.AI, cs.CV
- 출판일: 2026년 1월 8일
- PDF: Download PDF