未来代理的大脑：为何 VL-JEPA 对真实世界 AI 至关重要

发布: 0个月前 (2026年1月11日 GMT+8 09:31)

10 分钟阅读

原文: Dev.to

Source: Dev.to

如果你最近在关注 AI，你一定知道这种操作流程：输入 → 生成。

你给 ChatGPT、Gemini 或 Claude 一个提示 → 它生成文字。
你给 Sora 一个提示 → 它生成像素。
你给 Gemini Veo 一个提示 → 它从零创建电影场景。

这种方法被称为 自回归生成，是几乎所有现代 AI 的核心引擎。它通过预测下一个微小的数据片段（标记）来实现，依据的是之前的所有标记。

隐藏的低效

想象你正在观看一个人烹饪的视频。要理解这个视频，你需要 绘制锅中升起的每一个蒸汽像素 吗？不需要。你只需要抽象的概念：“水在沸腾”。

标准的视觉语言模型（VLM），例如 LLaVA 或 GPT‑4V 被迫 “绘制蒸汽”。 它们必须对每个表层细节——语言风格、用词选择或像素噪声——进行建模，仅仅是为了证明它们理解场景。这导致它们：

计算成本高 – 它们在无关细节上浪费计算资源。

示例: “当你仅仅问‘今天晴吗？’时，它却耗费能量计算每一朵云的精确形状。”
速度慢 – 它们逐 token 生成输出，这会削弱实时性能。

示例: “这就像等一个慢速打字员写完一段文字后，你才能知道答案是‘是’还是‘否’。”
易产生幻觉 – 如果它们不知道某个细节，训练目标仍然迫使它们输出某些 token 序列，常常导致自信却错误的完成。

示例: “让它读取模糊的车牌，它会编造数字来完成模式。”

低效的根源在于损失函数本身：交叉熵会惩罚每一个 token 不匹配，即使两个答案表达的是同一个意思。

非生成式替代方案：VL‑JEPA

在花了三天多时间阅读论文 VL‑JEPA 之后，我可以自信地说：该论文首次提出了 第一种非生成式视觉‑语言模型，能够实时处理通用领域任务。它并不尝试生成答案，而是预测答案的 数学“思考”。

VL‑JEPA 直接基于 Joint Embedding Predictive Architecture (JEPA) 哲学：

永不预测噪声。预测意义。

要理解 VL‑JEPA，必须摒弃“下一个 token 预测”的习惯，将目标从生成像素或文字转向 预测状态。

一个具体情境：洒出的牛奶

标准（生成式）模型（例如 LLaVA、GPT‑4V）

符号	含义
X（输入）	玻璃滑动的视频帧
Y（目标）	文本 “The glass falls and spills.”

过程

模型先猜 “The”，再猜 “glass”，接着猜 “falls”。
如果它猜错（例如 “The cup …”），即使意义是正确的，也会受到惩罚。

VL‑JEPA（非生成式）

符号	含义
Sₓ（输入嵌入）	概括 “glass sliding” 的向量
Sᵧ（目标嵌入）	概括 “spill occurred” 的向量

过程

给定滑动的嵌入，模型预测洒出事件的嵌入。
没有文字。没有像素。只有意义。

为什么 token‑space 有缺陷

在原始 token 空间中，不同的正确答案可能看起来完全不相关：

“The milk spilled.”
“The liquid made a mess.”

标准的 VLM 会把它们视为几乎正交，因为词汇没有重叠。

VL‑JEPA 的解决方案： 在嵌入空间中，两句话映射到相近的点，因为它们的 meaning 是相同的。这将凌乱的、多模态的输出分布压缩为单一的平滑区域，使学习效率大幅提升。

VL‑JEPA 背后的引擎

VL‑JEPA 不会从零开始学习视觉。它的视觉编码器是从 V‑JEPA 2 初始化的，而 V‑JEPA 2 已经具备对物理的“直觉”（例如，知道不受支撑的物体会下落）。

系统组件（洒奶例子）

组件	它是什么	它的作用
视觉编码器	Vision Transformer（V‑JEPA 2）	将视频帧压缩成密集的视觉嵌入（对象、运动、关系）。不预测未来像素。
多模态 Transformer	从 Llama‑3.2 层初始化的 Transformer	接收视觉嵌入 + 文本查询（例如，“接下来会发生什么？”），预测表示未来状态的目标嵌入。使用双向注意力，使视觉和查询 token 共同决定预测。
文本嵌入模型	EmbeddingGemma	将真实答案（“牛奶洒了”）转换为答案嵌入。
轻量文本解码器	–	仅在推理时使用，将预测的嵌入转化为可读文本。它在主训练阶段关闭，以节省计算资源。

关键思路： 模型可以在不提及牛奶洒出的情况下“思考”这一情景。文本仅在 需要时由人类请求 时生成，这对效率至关重要。

VL‑JEPA 随时间的行为

想象一个机器人在观察玻璃：

Frame	Visual description	Embedding behavior
1	“玻璃在桌子上。”	稳定的嵌入（情境未改变）。
10	“玻璃在移动。”	嵌入略有漂移。
20	“玻璃仍在移动。”	嵌入继续演变。
1‑50	语义未变化。	嵌入保持稳定 → Decoder stays off (silence).
51	“玻璃倾倒。”	方差激增，标示语义转变。→ Decoder activates to produce a textual answer.

因此，VL‑JEPA 产生连续的嵌入流，仅在出现有意义的状态变化时调用解码器。

TL;DR

自回归的逐标记生成会浪费计算资源，降低推理速度，并且容易产生幻觉。
VL‑JEPA 用 嵌入空间预测 有意义状态 来取代标记生成。
通过利用预训练的物理感知视觉编码器（V‑JEPA 2）和双向多模态 Transformer，VL‑JEPA 能够在实时处理通用视觉语言任务，同时显著降低计算量。

*VLM 的未来可能不在于生成更多标记，而在于思考更高效。

“玻璃已经掉落。”

这将解码操作减少约 2.85 倍，同时保持相同的准确性。

Meta 不仅仅是理论化——他们进行了严格受控的比较。你可以在论文中参考 Figure 3。

VL‑JEPA 论文

两个模型使用了：

相同的视觉编码器
相同的数据
相同的批量大小
相同的训练步骤

唯一的区别是目标：

预测嵌入 vs. 生成令牌。

VL‑JEPA 的优势

学习更快（样本效率）

模型	CIDEr（5 M 样本后）
VL‑JEPA	14.7
Generative VLM	7.1

需要更少的算力（参数效率）

参数量减少 50 %（0.5 B 对比 1 B）。

更好地理解世界动态

WorldPrediction 基准（状态转移推理）：

模型	准确率
VL‑JEPA	65.7 %
GPT‑4o / Gemini‑2.0	~53 %

注意： 该基准测试的是对世界如何变化的理解，而非符号推理或工具使用。

结论

VL‑JEPA 证明了 Thinking ≠ Talking。通过将理解过程（Predictor）与生成过程（Decoder）分离，Meta 构建了一个模型，使其：

更安静
更快速
在根本上更贴合物理现实

如果我们想要能够实时观察婴儿并在玻璃牛奶掉落前接住的 AI 代理，我们并不需要能够写出关于水花的诗的模型。我们需要的是能够 在溢出发生前进行预测 的模型。在我看来，VL‑JEPA 是通往那个未来的第一步。