未来代理的大脑:为何 VL-JEPA 对真实世界 AI 至关重要
Source: Dev.to
如果你最近在关注 AI,你一定知道这种操作流程:输入 → 生成。
- 你给 ChatGPT、Gemini 或 Claude 一个提示 → 它生成文字。
- 你给 Sora 一个提示 → 它生成像素。
- 你给 Gemini Veo 一个提示 → 它从零创建电影场景。
这种方法被称为 自回归生成,是几乎所有现代 AI 的核心引擎。它通过预测下一个微小的数据片段(标记)来实现,依据的是之前的所有标记。
隐藏的低效
想象你正在观看一个人烹饪的视频。要理解这个视频,你需要 绘制锅中升起的每一个蒸汽像素 吗?不需要。你只需要抽象的概念:“水在沸腾”。
标准的视觉语言模型(VLM),例如 LLaVA 或 GPT‑4V 被迫 “绘制蒸汽”。 它们必须对每个表层细节——语言风格、用词选择或像素噪声——进行建模,仅仅是为了证明它们理解场景。这导致它们:
-
计算成本高 – 它们在无关细节上浪费计算资源。
示例: “当你仅仅问‘今天晴吗?’时,它却耗费能量计算每一朵云的精确形状。”
-
速度慢 – 它们逐 token 生成输出,这会削弱实时性能。
示例: “这就像等一个慢速打字员写完一段文字后,你才能知道答案是‘是’还是‘否’。”
-
易产生幻觉 – 如果它们不知道某个细节,训练目标仍然迫使它们输出某些 token 序列,常常导致自信却错误的完成。
示例: “让它读取模糊的车牌,它会编造数字来完成模式。”
低效的根源在于损失函数本身:交叉熵会惩罚每一个 token 不匹配,即使两个答案表达的是同一个意思。
非生成式替代方案:VL‑JEPA
在花了三天多时间阅读论文 VL‑JEPA 之后,我可以自信地说:该论文首次提出了 第一种非生成式视觉‑语言模型,能够实时处理通用领域任务。它并不尝试生成答案,而是预测答案的 数学“思考”。
-
VL‑JEPA 直接基于 Joint Embedding Predictive Architecture (JEPA) 哲学:
永不预测噪声。预测意义。
要理解 VL‑JEPA,必须摒弃“下一个 token 预测”的习惯,将目标从生成像素或文字转向 预测状态。
一个具体情境:洒出的牛奶
标准(生成式)模型(例如 LLaVA、GPT‑4V)
| 符号 | 含义 |
|---|---|
| X(输入) | 玻璃滑动的视频帧 |
| Y(目标) | 文本 “The glass falls and spills.” |
过程
- 模型先猜 “The”,再猜 “glass”,接着猜 “falls”。
- 如果它猜错(例如 “The cup …”),即使意义是正确的,也会受到惩罚。
VL‑JEPA(非生成式)
| 符号 | 含义 |
|---|---|
| Sₓ(输入嵌入) | 概括 “glass sliding” 的向量 |
| Sᵧ(目标嵌入) | 概括 “spill occurred” 的向量 |
过程
- 给定滑动的嵌入,模型预测洒出事件的嵌入。
- 没有文字。没有像素。只有意义。
为什么 token‑space 有缺陷
在原始 token 空间中,不同的正确答案可能看起来完全不相关:
- “The milk spilled.”
- “The liquid made a mess.”
标准的 VLM 会把它们视为几乎正交,因为词汇没有重叠。
VL‑JEPA 的解决方案: 在嵌入空间中,两句话映射到相近的点,因为它们的 meaning 是相同的。这将凌乱的、多模态的输出分布压缩为单一的平滑区域,使学习效率大幅提升。
VL‑JEPA 背后的引擎
VL‑JEPA 不会 从零开始学习视觉。它的视觉编码器是从 V‑JEPA 2 初始化的,而 V‑JEPA 2 已经具备对物理的“直觉”(例如,知道不受支撑的物体会下落)。
系统组件(洒奶例子)
| 组件 | 它是什么 | 它的作用 |
|---|---|---|
| 视觉编码器 | Vision Transformer(V‑JEPA 2) | 将视频帧压缩成密集的视觉嵌入(对象、运动、关系)。不预测未来像素。 |
| 多模态 Transformer | 从 Llama‑3.2 层初始化的 Transformer | 接收视觉嵌入 + 文本查询(例如,“接下来会发生什么?”),预测表示未来状态的 目标嵌入。使用 双向注意力,使视觉和查询 token 共同决定预测。 |
| 文本嵌入模型 | EmbeddingGemma | 将真实答案(“牛奶洒了”)转换为 答案嵌入。 |
| 轻量文本解码器 | – | 仅在推理时使用,将预测的嵌入转化为可读文本。它在主训练阶段 关闭,以节省计算资源。 |
关键思路: 模型可以在不提及牛奶洒出的情况下“思考”这一情景。文本仅在 需要时由人类请求 时生成,这对效率至关重要。
VL‑JEPA 随时间的行为
想象一个机器人在观察玻璃:
| Frame | Visual description | Embedding behavior |
|---|---|---|
| 1 | “玻璃在桌子上。” | 稳定的嵌入(情境未改变)。 |
| 10 | “玻璃在移动。” | 嵌入略有漂移。 |
| 20 | “玻璃仍在移动。” | 嵌入继续演变。 |
| 1‑50 | 语义未变化。 | 嵌入保持稳定 → Decoder stays off (silence). |
| 51 | “玻璃倾倒。” | 方差激增,标示语义转变。→ Decoder activates to produce a textual answer. |
因此,VL‑JEPA 产生连续的嵌入流,仅在出现有意义的状态变化时调用解码器。
TL;DR
- 自回归的逐标记生成会浪费计算资源,降低推理速度,并且容易产生幻觉。
- VL‑JEPA 用 嵌入空间预测 有意义状态 来取代标记生成。
- 通过利用预训练的物理感知视觉编码器(V‑JEPA 2)和双向多模态 Transformer,VL‑JEPA 能够在 实时 处理通用视觉语言任务,同时显著降低计算量。
*VLM 的未来可能不在于生成更多标记,而在于 思考 更高效。
“玻璃已经掉落。”
这将解码操作减少约 2.85 倍,同时保持相同的准确性。
Meta 不仅仅是理论化——他们进行了严格受控的比较。你可以在论文中参考 Figure 3。
VL‑JEPA 论文
两个模型使用了:
- 相同的视觉编码器
- 相同的数据
- 相同的批量大小
- 相同的训练步骤
唯一的区别是目标:
- 预测嵌入 vs. 生成令牌。
VL‑JEPA 的优势
学习更快(样本效率)
| 模型 | CIDEr(5 M 样本后) |
|---|---|
| VL‑JEPA | 14.7 |
| Generative VLM | 7.1 |
需要更少的算力(参数效率)
- 参数量减少 50 %(0.5 B 对比 1 B)。
更好地理解世界动态
WorldPrediction 基准(状态转移推理):
| 模型 | 准确率 |
|---|---|
| VL‑JEPA | 65.7 % |
| GPT‑4o / Gemini‑2.0 | ~53 % |
注意: 该基准测试的是对世界如何变化的理解,而非符号推理或工具使用。
结论
VL‑JEPA 证明了 Thinking ≠ Talking。通过将理解过程(Predictor)与生成过程(Decoder)分离,Meta 构建了一个模型,使其:
- 更安静
- 更快速
- 在根本上更贴合物理现实
如果我们想要能够实时观察婴儿并在玻璃牛奶掉落前接住的 AI 代理,我们并不需要能够写出关于水花的诗的模型。我们需要的是能够 在溢出发生前进行预测 的模型。在我看来,VL‑JEPA 是通往那个未来的第一步。