[Paper] ThinkJEPA: 대규모 비전-언어 추론 모델을 활용한 잠재 세계 모델 강화

발행: 1일 전 (2026년 3월 24일 AM 02:59 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2603.22281v1

개요

이 논문은 ThinkJEPA를 소개한다. 이는 조밀한 잠재 세계 모델(JEPA)과 대규모 시각‑언어 추론 모델(VLM)을 결합한 하이브리드 아키텍처이다. VLM이 고수준 의미 지도를 제공하고 JEPA가 세밀한 움직임 역학을 처리하도록 함으로써, 시스템은 개별 구성 요소만 사용할 때보다 더 긴 시간 범위의 비디오 미래를 보다 정확하게 예측할 수 있다.

주요 기여

Dual‑temporal pathway: 조밀하고 짧은 간격의 JEPA 브랜치를 밀집된 형태로 결합하고, 훨씬 더 큰 시간 창을 아우르는 희소 샘플링 “thinker” VLM 브랜치를 결합합니다.
Hierarchical pyramid extraction: 다중 레이어 VLM 임베딩을 잠재 예측기와 호환되는 압축된 가이드 피처로 정제하는 경량 모듈입니다.
Cross‑modal knowledge transfer: VLM으로부터의 점진적 추론 신호를 잠재 세계 모델에 과부하 없이 주입하는 방법을 보여줍니다.
Empirical gains on hand‑manipulation forecasting: 특히 장기 롤아웃에서 강력한 VLM‑only 베이스라인과 최신 JEPA 예측기를 모두 능가합니다.
Generalizable framework: 아키텍처가 모듈식이어서 다른 VLM(예: CLIP, BLIP)이나 잠재 예측기를 자유롭게 교체할 수 있습니다.

Methodology

Input streams
- Dense branch: 원본 프레임 레이트로 짧은 클립(예: 연속된 8프레임)을 받아들입니다.
- Thinker branch: 동일한 영상을 더 큰 스트라이드(예: 매 8번째 프레임)로 샘플링하여, 프레임들을 사전 학습된 비전‑언어 모델에 입력합니다.
JEPA predictor
- 원래의 J‑Prediction‑Encoding‑Prediction‑Architecture (JEPA)와 동일하게 동작합니다: 각 프레임을 잠재 토큰으로 인코딩하고, 다음 토큰을 예측한 뒤 픽셀 공간으로 디코딩합니다. 이를 통해 저수준의 움직임 및 상호작용 단서를 포착합니다.
VLM “thinker”
- VLM은 희소하게 샘플링된 프레임들을 선택적 텍스트 프롬프트(예: “손이 물체를 잡고 있다”)와 함께 처리합니다. 내부 트랜스포머 레이어는 객체 정체성, 어포던스, 장면 컨텍스트를 인코딩하는 풍부한 의미 임베딩을 생성합니다.
Pyramid representation extraction
- 여러 VLM 레이어에서 다중 스케일 특징을 풀링한 뒤, 이를 연결하고 고정 크기의 가이드 벡터로 투영합니다. 이 벡터는 JEPA 잠재 시퀀스와 시간적으로 정렬됩니다.
Fusion & training
- 가이드 벡터는 교차‑어텐션을 통해 JEPA predictor에 주입되어, 잠재 동역학이 의미적으로 타당한 미래를 예측하도록 편향됩니다.
- 전체 시스템은 손‑조작 데이터셋에 대해 엔드‑투‑엔드로 학습되며, 픽셀 재구성, 잠재 예측 오류, 그리고 두 브랜치 간 일관성을 촉진하는 대비 손실을 결합한 손실 함수를 사용합니다.

결과 및 발견

Metric (hand‑manipulation dataset)	JEPA‑only	VLM‑only	ThinkJEPA (제안된)
Short‑horizon (≤ 0.5 s) PSNR	28.1 dB	26.7 dB	29.4 dB
Long‑horizon (≥ 2 s) PSNR	22.3 dB	21.0 dB	24.1 dB
Success rate of task‑completion	68 %	62 %	78 %
Rollout stability (average drift)	0.45 px	0.61 px	0.28 px

시맨틱 충실도: 정성적 롤아웃에서 ThinkJEPA가 객체 정체성(예: 컵이 계속 컵으로 유지됨)을 JEPA 단독보다 훨씬 오래 유지함을 보여주며, JEPA는 종종 비현실적인 형태로 변형됩니다.
희소 데이터에 대한 강인성: 행동 조건부 훈련 세트를 50 % 감소시켜도, VLM의 사전 지식 덕분에 ThinkJEPA의 성능 저하가 5 % 미만에 그칩니다.

Practical Implications

Robotics & manipulation: 로봇 컨트롤러를 개발하는 개발자들은 ThinkJEPA를 사용하여 모델 기반 계획에 보다 신뢰할 수 있는 미래 프레임을 생성할 수 있습니다. 특히 관찰 프레임이 몇 개만 있을 때 유용합니다.
AR/VR content generation: 장기적인 비디오 합성(예: 아바타 애니메이션을 위한 손 제스처 예측)은 VLM이 제공하는 의미적 일관성의 혜택을 받습니다.
Edge deployment: 조밀한 JEPA 브랜치는 디바이스 내에서(경량 CNN/ViT) 실행될 수 있으며, VLM 사고기능은 서버에 오프로드하거나 낮은 주기로 실행하여 전체 지연 시간을 관리 가능한 수준으로 유지합니다.
Data efficiency: 이 프레임워크는 사전 학습된 VLM 지식을 활용하여 필요한 작업별 비디오 데이터 양을 감소시킵니다—이는 제한된 라벨링 예산을 가진 스타트업이나 연구 그룹에 큰 도움이 됩니다.

제한 사항 및 향후 작업

컴퓨팅 오버헤드: 대형 VLM을 희소하게라도 실행하면 메모리와 지연 시간이 증가합니다; 저자들은 보다 효율적인 증류 또는 양자화가 필요함을 언급합니다.
도메인 특수성: 실험은 손 조작에 초점을 맞추었으며, 이 접근법이 야외 주행 장면이나 다중 에이전트 상호작용에 얼마나 잘 적용되는지는 아직 불분명합니다.
프롬프트 의존성: VLM의 추론 품질은 텍스트 프롬프트에 따라 달라질 수 있으며, 자동 프롬프트 생성은 아직 해결되지 않은 문제입니다.
향후 방향으로는 다음이 제안됩니다: (1) 대체 VLM 탐색(예: 멀티모달 LLM), (2) 피라미드 추출기를 확장하여 더 긴 시간 범위에 걸친 시간적 어텐션을 처리하도록 하며, (3) 예측과 제어 사이의 루프를 닫기 위해 강화 학습을 통합하는 것.

저자

Haichao Zhang
Yijiang Li
Shwai He
Tushar Nagarajan
Mingfei Chen
Jianglin Lu
Ang Li
Yun Fu

논문 정보

arXiv ID: 2603.22281v1
분류: cs.CV, cs.AI, cs.CL, cs.LG, cs.RO
출판일: 2026년 3월 23일
PDF: PDF 다운로드

[Paper] ThinkJEPA: 대규모 비전-언어 추론 모델을 활용한 잠재 세계 모델 강화

개요

주요 기여

Methodology

결과 및 발견

Practical Implications

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] WorldCache: 콘텐츠 인식 캐싱을 통한 가속화된 비디오 월드 모델

[Paper] End-to-End 학습을 통한 통합 토크나이제이션 및 잠재 디노이징

[Paper] UniMotion: 모션-텍스트-비전 이해 및 생성을 위한 통합 프레임워크

[Paper] Vision‑Language 모델에서 공간 추론의 이중 메커니즘