[Paper] VLA-JEPA: Vision-Language-Action 모델을 Latent World 모델로 강화
Source: arXiv - 2602.10098v1
Overview
이 논문은 VLA‑JEPA라는 새로운 사전 학습 프레임워크를 소개합니다. Vision‑Language‑Action (VLA) 에이전트를 위해 설계된 이 프레임워크는 원시 픽셀 대신 미래 잠재 상태를 예측하도록 학습합니다. 미래 정보를 모델 입력에서 배제하고 이를 감독 신호로만 사용함으로써, VLA‑JEPA는 이전 잠재‑액션 접근 방식에서 발생하던 “외관 편향”과 방해‑모션 문제를 회피하고, 보이지 않는 환경에서도 더 잘 전이되는 보다 견고한 정책을 구현합니다.
주요 기여
- Leakage‑free latent prediction: 목표 인코더가 미래 비디오 프레임으로부터 잠재 임베딩을 추출하고, 학생 네트워크는 현재 관측만을 보게 하여 정보 누수가 없음을 보장합니다.
- JEPA‑style pre‑training for VLA: “Joint Embedding Predictive Architecture”(JEPA) 패러다임을 vision‑language‑action 작업에 적용하여 기존 연구에서 사용되던 다단계 파이프라인을 제거합니다.
- Action‑agnostic dynamics learning: 잠재 공간에서 예측함으로써 모델은 카메라 움직임, 배경 잡음 및 기타 시각적 노이즈에 영향을 받지 않는 고수준 상태 전이를 포착합니다.
- Two‑stage training recipe: 간단한 사전 학습 → 액션 헤드 미세 조정이라는 두 단계 훈련 방식을 제공하여 복잡한 잠재‑액션 파이프라인에 비해 엔지니어링 오버헤드를 감소시킵니다.
- Strong empirical gains: 일반화와 견고성 측면에서 여러 벤치마크(LIBERO, LIBERO‑Plus, SimplerEnv, 그리고 실제 조작)에서 일관된 성능 향상을 입증합니다.
Source: …
Methodology
-
Student–Teacher Architecture
- **Target encoder (teacher)**는 미래 비디오 프레임(예: 다음 1–2 초)을 처리하고 고차원 잠재 벡터를 생성합니다. 이 파라미터는 고정되거나 지수 이동 평균을 통해 천천히 업데이트됩니다.
- Student encoder는 현재 관찰( RGB 이미지 + 언어 명령)만을 입력받아 교사의 잠재 벡터를 예측하려고 합니다. 픽셀 수준 재구성 손실은 사용되지 않으며, 손실은 잠재 공간에서의 단순 코사인 유사도 혹은 L2 거리입니다.
-
JEPA Objective
- 손실은 학생의 잠재 예측이 교사의 잠재 목표와 일치하도록 장려하여, 실제 미래 프레임을 보지 않고도 기본적인 세계 역학 모델을 학습하게 합니다.
-
Training Pipeline
- Stage 1 – Pre‑training: 인터넷에서 수집한 대규모 비라벨 비디오‑명령 데이터셋에 학생‑교사 쌍을 적용합니다. 모델은 일반적인 “잠재 세계 모델”을 학습합니다.
- Stage 2 – Fine‑tuning: 고정된 학생 인코더 위에 경량 액션 헤드(예: 트랜스포머 또는 MLP)를 연결하고, 하위 RL 혹은 모방 학습 작업에 대해 학습합니다.
-
Implementation Details
- Vision backbone: ImageNet 사전학습된 ViT‑B/16.
- Language encoder: 고정된 BERT‑base.
- Temporal horizon: 무작위로 샘플링된 0.5–1 초 미래.
- Optimizer: 코사인 학습률 감소를 적용한 AdamW.
결과 및 발견
| Benchmark | Metric (↑ better) | VLA‑JEPA | Prior Latent‑Action (e.g., VINN) | Ablation (no teacher EMA) |
|---|---|---|---|---|
| LIBERO‑Plus (zero‑shot) | 성공률 | 68.4 % | 55.1 % | 60.2 % |
| SimplerEnv (domain shift) | 정규화 점수 | 84.7 | 71.3 | 78.5 |
| Real‑world pick‑and‑place | 성공률 | 72.1 % | 58.9 % | 66.4 % |
- 시각적 방해 요소에 대한 강인성: 무작위 카메라 흔들림이나 배경 텍스처를 추가해도 VLA‑JEPA 성능은 < 3 % 감소하는 반면, 베이스라인은 > 10 % 감소한다.
- 샘플 효율성: 동일한 양의 파인‑튜닝 데이터를 사용할 때, VLA‑JEPA는 베이스라인에 비해 에피소드 수가 절반일 때 최종 성능의 90 %에 도달한다.
- Ablation 인사이트: 교사 EMA 업데이트를 제거하거나 잠재값 대신 픽셀을 예측하면 일반화와 안정성이 모두 저하되어, 누수‑없는 잠재 예측의 중요성을 확인한다.
실용적인 함의
- 로봇 팀을 위한 더 간단한 파이프라인 – 개발자는 이제 여러 잠재 행동 모듈을 다루지 않고도 두 단계의 사전 학습‑후‑미세 조정 워크플로를 채택할 수 있어 엔지니어링 시간을 절약합니다.
- 새로운 하드웨어나 환경으로의 더 나은 전이 – 잠재 세계 모델이 카메라 움직임과 배경 변화를 추상화하기 때문에 시뮬레이션에서 학습된 정책이 다른 시점이나 조명을 가진 실제 로봇에서도 작동할 가능성이 높아집니다.
- 데이터 라벨링 비용 감소 – 사전 학습 단계에서는 웹에서 수집할 수 있는 원시 비디오‑명령 쌍만 필요하므로 비용이 많이 드는 수작업 상태 주석이 필요 없습니다.
- 플러그‑앤‑플레이 액션 헤드 – 고정된 학생 인코더를 다양한 작업(예: 픽‑앤‑플레이스, 문 열기, 조립)에서 재사용할 수 있어 작은 작업‑특정 헤드만 교체하면 새로운 행동을 빠르게 프로토타이핑할 수 있습니다.
- 디바이스 내 지속 학습 가능성 – 추론 시 교사가 전혀 호출되지 않으므로 런타임 모델이 가볍게 유지되어 엣지 디바이스나 저전력 로봇 컨트롤러에서도 구현이 가능합니다.
제한 사항 및 향후 연구
- 잠재 해석 가능성 – 학습된 잠재 공간은 직접적으로 인간이 읽을 수 없으며, 이는 표현 학습에 익숙하지 않은 개발자에게 디버깅을 어렵게 만들 수 있습니다.
- 고품질 미래 프레임에 대한 의존성 – 미래 관측이 모호한 고확률적 환경에서는 교사의 목표가 노이즈가 섞일 수 있어 예측 정확도가 제한됩니다.
- 교사 업데이트의 확장성 – 매우 큰 모델에 대해 EMA 교사를 유지하면 메모리 오버헤드가 증가할 수 있으며, 보다 효율적인 교사‑프리 대안을 탐색하는 것이 열린 과제입니다.
- 다중모달 행동으로의 확장 – 현재 연구는 이산 또는 저차원 연속 행동에 초점을 맞추고 있으며, VLA‑JEPA를 복잡한 섬세한 조작이나 전신 제어에 적용하는 것은 아직 조사되지 않았습니다.
전반적으로 VLA‑JEPA는 보다 견고한 비전‑언어‑행동 에이전트를 위한 설득력 있는 개발자 친화적 경로를 제공하며, 누수 없는 잠재 예측 패러다임은 구현 AI에서 사전 학습의 새로운 표준이 될 수 있습니다.
저자
- Jingwen Sun
- Wenyao Zhang
- Zekun Qi
- Shaojie Ren
- Zezhi Liu
- Hanxin Zhu
- Guangzhong Sun
- Xin Jin
- Zhibo Chen
논문 정보
- arXiv ID: 2602.10098v1
- 분류: cs.RO, cs.CV
- 게시일: 2026년 2월 10일
- PDF: PDF 다운로드