미래 에이전트의 두뇌: 왜 VL-JEPA가 실제 세계 AI에 중요한가
Source: Dev.to
If you have been following AI recently, you know the drill: Input → Generate.
- You give ChatGPT, Gemini, or Claude a prompt → it generates words.
- You give Sora a prompt → it generates pixels.
- You give Gemini Veo a prompt → it creates a cinematic scene from scratch.
This method, known as autoregressive generation, is the engine behind almost every modern AI. It works by predicting the next tiny piece of data (a token) based on the previous ones.
숨겨진 비효율성
Imagine you are watching a video of a person cooking. To understand that video, do you need to paint every single pixel of the steam rising from the pot? No. You just need the abstract concept: “Water is boiling.”
표준 Vision‑Language Models (VLMs) like LLaVA or GPT‑4V are forced to “paint the steam.” They must model every surface‑level detail—linguistic style, word choice, or pixel noise—just to prove they understand the scene. This makes them:
-
Computationally expensive – they waste compute on irrelevant details.
Example: “It burns energy calculating the exact shape of every cloud when you simply asked, ‘Is it sunny?’”
-
Slow – they generate outputs token‑by‑token, which kills real‑time performance.
Example: “It’s like waiting for a slow typist to finish a paragraph before you can know if the answer is ‘Yes’ or ‘No.’”
-
Hallucination‑prone – if they don’t know a detail, the training objective still forces them to emit some token sequence, often resulting in confident but incorrect completions.
Example: “Ask it to read a blurry license plate, and it will invent numbers just to complete the pattern.”
The inefficiency stems from the loss itself: cross‑entropy penalizes every token mismatch, even when two answers mean the same thing.
비생성적 대안: VL‑JEPA
논문 VL‑JEPA 를 읽는 데 삼 일 이상을 투자한 뒤, 자신 있게 말할 수 있습니다: 이 논문은 실시간으로 일반 도메인 작업을 처리하도록 설계된 최초의 비생성 비전‑언어 모델을 소개합니다. 답을 생성하려 하지 않고, 답의 *수학적 “생각”*을 예측합니다.
-
VL‑JEPA는 Joint Embedding Predictive Architecture (JEPA) 철학을 직접 기반으로 합니다:
노이즈를 예측하지 마세요. 의미를 예측하세요.
VL‑JEPA를 이해하려면 “다음 토큰 예측” 습관을 버리고 목표를 픽셀이나 단어를 만드는 것에서 상태를 예측하는 것으로 전환해야 합니다.
구체적인 시나리오: 쏟아진 우유
표준 (생성) 모델 (예: LLaVA, GPT‑4V)
| 기호 | 의미 |
|---|---|
| X (입력) | 유리가 미끄러지는 비디오 프레임 |
| Y (목표) | 텍스트 “The glass falls and spills.” |
과정
- 모델이 “The,” 다음에 “glass,” 그리고 “falls.”를 추측합니다.
- 만약 잘못 추측하면 (예: “The cup …”), 의미는 맞지만 벌점이 부과됩니다.
VL‑JEPA (비생성)
| 기호 | 의미 |
|---|---|
| Sₓ (입력 임베딩) | “glass sliding.”을 요약한 벡터 |
| Sᵧ (목표 임베딩) | “spill occurred.”을 요약한 벡터 |
과정
- 슬라이딩 임베딩이 주어지면, 모델은 스필 임베딩을 예측합니다.
- 단어도 없고, 픽셀도 없습니다. 의미만 있습니다.
왜 토큰‑공간이 결함이 있는가
원시 토큰 공간에서는 서로 다른 정답이 전혀 관련 없어 보일 수 있다:
- “우유가 쏟아졌다.”
- “그 액체가 난장을 만들었다.”
표준 VLM은 단어가 겹치지 않기 때문에 이를 거의 직교하게 취급한다.
VL‑JEPA의 해결책: 임베딩 공간에서는 두 문장이 의미가 동일하기 때문에 인접한 점에 매핑된다. 이는 복잡하고 다중 모달인 출력 분포를 하나의 부드러운 영역으로 압축하여 학습을 크게 효율화한다.
VL‑JEPA 뒤의 엔진
VL‑JEPA는 처음부터 보는 법을 배우지 않습니다. 비전 인코더는 이미 물리학에 대한 직감(예: 지지되지 않은 물체는 떨어지는 경향이 있다는)을 가진 V‑JEPA 2에서 초기화됩니다.
시스템 구성 요소 (우유 쏟아짐 예시)
| 구성 요소 | 무엇인지 | 무엇을 하는지 |
|---|---|---|
| Vision encoder | Vision Transformer (V‑JEPA 2) | 비디오 프레임을 밀집된 시각 임베딩(객체, 움직임, 관계)으로 압축합니다. 미래 픽셀을 예측하지 않습니다. |
| Multimodal transformer | Transformer initialized from Llama‑3.2 layers | 시각 임베딩 + 텍스트 질의(예: “다음에 무슨 일이 일어나나요?”)를 받아 미래 상태를 나타내는 target embedding을 예측합니다. 양방향 어텐션을 사용하여 비전과 질의 토큰이 함께 예측을 조건화합니다. |
| Text‑embedding model | EmbeddingGemma | 정답 (“우유가 쏟아진다”)을 answer embedding으로 변환합니다. |
| Lightweight text decoder | – | 추론 시에만 사용되어 예측된 임베딩을 읽을 수 있는 텍스트로 변환합니다. 주요 학습 중에는 비활성화되어 계산량을 절감합니다. |
핵심 아이디어: 모델은 우유가 쏟아지는 상황을 말로 표현하지 않고도 “생각”할 수 있습니다. 텍스트는 인간이 필요할 때만 생성되며, 이는 효율성에 매우 중요합니다.
VL‑JEPA가 시간에 따라 어떻게 동작하는가
| Frame | Visual description | Embedding behavior |
|---|---|---|
| 1 | “유리잔이 테이블 위에 있다.” | 상황이 변하지 않아 임베딩이 안정적. |
| 10 | “유리잔이 움직이고 있다.” | 임베딩에 약간의 드리프트가 발생. |
| 20 | “유리잔이 계속 움직이고 있다.” | 임베딩이 계속 진화. |
| 1‑50 | 의미적 변화 없음. | 임베딩이 안정적으로 유지 → 디코더가 꺼짐(무음). |
| 51 | “유리잔이 기울어진다.” | 분산이 급증, 의미 전환을 신호. → 디코더가 활성화되어 텍스트 답변을 생성. |
따라서 VL‑JEPA는 연속적인 임베딩 스트림을 생성하며, 의미 있는 상태 변화가 있을 때만 디코더를 호출한다.
TL;DR
- 자동 회귀 방식의 토큰‑단위 생성은 연산을 낭비하고 추론을 지연시키며 환상을 유발합니다.
- VL‑JEPA는 토큰 생성을 의미 있는 상태의 임베딩‑스페이스 예측으로 대체합니다.
- 사전 학습된 물리‑인식 비전 인코더(V‑JEPA 2)와 양방향 멀티모달 트랜스포머를 활용함으로써, VL‑JEPA는 훨씬 적은 연산으로 일반 도메인 비전‑언어 작업을 실시간으로 답변할 수 있습니다.
VLM의 미래는 더 많은 토큰을 생성하는 것이 아니라 효율적으로 사고하는 데에 있을 수 있습니다.
“유리가 떨어졌어요.”
이는 정확도를 동일하게 유지하면서 디코딩 연산을 약 2.85× 감소시킵니다.
Meta는 이론에만 머물지 않고—엄격히 통제된 비교 실험을 수행했습니다. 논문에서 Figure 3을 참고하세요.
VL‑JEPA paper
사용된 두 모델:
- 동일한 비전 인코더
- 동일한 데이터
- 동일한 배치 크기
- 동일한 학습 단계
유일한 차이점은 목표였습니다:
- 임베딩을 예측 vs. 토큰을 생성.
VL‑JEPA의 장점
더 빠르게 학습 (샘플 효율)
| Model | CIDEr (after 5 M samples) |
|---|---|
| VL‑JEPA | 14.7 |
| Generative VLM | 7.1 |
적은 연산 자원 요구 (파라미터 효율)
- 50 % 적은 학습 가능한 파라미터 (0.5 B vs. 1 B).
세계 동역학을 더 잘 이해
WorldPrediction 벤치마크 (상태 전이 추론):
| Model | Accuracy |
|---|---|
| VL‑JEPA | 65.7 % |
| GPT‑4o / Gemini‑2.0 | ~53 % |
Note: 이 벤치마크는 세계가 어떻게 변하는지를 이해하는지를 테스트하며, 기호 추론이나 도구 사용을 테스트하는 것이 아닙니다.
결론
VL‑JEPA는 생각 ≠ 말하기임을 증명합니다. 이해 과정(Predictor)을 생성 과정(Decoder)과 분리함으로써, Meta는 다음과 같은 모델을 만들었습니다:
- 더 조용함
- 더 빠름
- 근본적으로 물리적 현실에 더 기반함
만약 우리가 유아를 관찰하고 실시간으로 떨어지는 우유 잔을 잡을 수 있는 AI 에이전트를 원한다면, 물이 튀는 장면에 대한 시를 쓸 수 있는 모델은 필요하지 않습니다. 우리는 사고가 일어나기 전에 쏟아짐을 예측할 수 있는 모델이 필요합니다. 제 생각에 VL‑JEPA는 그 미래를 향한 첫 번째 단계입니다.