[Paper] VLA-JEPA：增强视觉-语言-动作模型的潜在世界模型

发布: 2天前 (2026年2月11日 GMT+8 02:58)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.10098v1

Overview

本文介绍了 VLA‑JEPA，一种用于 Vision‑Language‑Action (VLA) 代理的新预训练框架，它学习预测 未来潜在状态 而不是原始像素。通过将未来信息从模型的输入中排除，仅将其用作监督信号，VLA‑JEPA 绕过了早期潜在动作方法中困扰的 “appearance bias” 与 nuisance‑motion 问题，从而产生更稳健的策略，能够更好地迁移到未见过的环境中。

关键贡献

无泄漏潜在预测：目标编码器从未来视频帧中提取潜在嵌入，而学生网络仅看到当前观测，保证信息不泄漏。
用于 VLA 的 JEPA 风格预训练：将 “Joint Embedding Predictive Architecture”（JEPA）范式适配到视觉‑语言‑动作任务，消除以往工作中使用的多阶段流水线需求。
动作无关的动力学学习：通过在潜在空间进行预测，模型捕获对相机运动、背景杂乱及其他视觉噪声不变的高层状态转移。
两阶段训练方案：简单的预训练 → 微调动作头，相比复杂的潜在‑动作流水线降低了工程开销。
显著的实证提升：在多个基准（LIBERO、LIBERO‑Plus、SimplerEnv 以及真实世界操作）上展示了在泛化性和鲁棒性方面的一致改进。

方法论

学生–教师架构
- 目标编码器（教师） 处理未来视频帧（例如接下来的 1–2 秒），并产生高维潜在向量。其参数保持冻结或通过指数移动平均缓慢更新。
- 学生编码器 仅接收当前观测（RGB 图像 + 语言指令），并尝试预测教师的潜在向量。没有像素级重建损失；损失仅为潜在空间中的余弦相似度或 L2 距离。
JEPA 目标
- 该损失鼓励学生的潜在预测匹配教师的潜在目标，从而在从未看到未来帧的情况下学习底层世界动力学模型。
训练流程
- 阶段 1 – 预训练：在大规模、未标注的视频‑指令数据集上运行学生‑教师对。模型学习通用的“潜在世界模型”。
- 阶段 2 – 微调：在冻结的学生编码器顶部附加轻量级动作头（例如 transformer 或 MLP），并在下游强化学习或模仿学习任务上进行训练。
实现细节
- 视觉主干：ViT‑B/16，已在 ImageNet 上预训练。
- 语言编码器：冻结的 BERT‑base。
- 时间视野：未来 0.5–1 秒，随机采样。
- 优化器：AdamW，余弦学习率衰减。

结果与发现

基准测试	指标 (↑ 更好)	VLA‑JEPA	先前的潜在动作方法 (例如，VINN)	消融实验 (无教师 EMA)
LIBERO‑Plus（零-shot）	成功率	68.4 %	55.1 %	60.2 %
SimplerEnv（域迁移）	归一化得分	84.7	71.3	78.5
真实世界抓取放置	成功率	72.1 %	58.9 %	66.4 %

对视觉干扰的鲁棒性：加入随机相机抖动或背景纹理时，VLA‑JEPA 的性能下降 < 3 %，而基线方法下降 > 10 %。
样本效率：在相同的微调数据量下，VLA‑JEPA 在所需回合数仅为基线的一半时，就能达到最终性能的 90 %。
消融洞察：去除教师的 EMA 更新或改为预测像素而非潜在表示，会削弱模型的泛化能力和稳定性，进一步验证了无泄漏潜在预测的重要性。

实际意义

更简化的机器人团队流水线 – 开发者现在可以采用两阶段的预训练再微调工作流，而无需同时处理多个潜在动作模块，从而节省工程时间。
更好地迁移到新硬件或新环境 – 由于潜在世界模型抽象了相机运动和背景变化，在仿真中训练的策略更有可能在视角或光照不同的真实机器人上运行。
降低数据标注成本 – 预训练阶段只需要原始视频‑指令对，这些可以从网络抓取，省去了昂贵的手工状态标注。
即插即用的动作头 – 冻结的学生编码器可以在不同任务之间复用（例如抓取‑放置、开门、装配），通过更换小型任务特定的头部即可快速原型化新行为。
在设备上持续学习的潜力 – 由于推理时不再查询教师模型，运行时模型保持轻量，适用于边缘设备或低功耗机器人控制器。

限制与未来工作

潜在可解释性 – 学到的潜在空间并非直接可读，这可能导致对表征学习不熟悉的开发者在调试时遇到困难。
依赖高质量的未来帧 – 在高度随机的环境中，未来观测可能模糊不清，教师的目标会变得嘈杂，从而限制预测精度。
教师模型更新的可扩展性 – 为非常大的模型维护 EMA 教师会增加内存开销；探索更高效的无教师替代方案是一个开放方向。
向多模态动作的扩展 – 当前工作侧重于离散或低维连续动作；将 VLA‑JEPA 应用于复杂的灵巧操作或全身控制仍需进一步研究。

总体而言，VLA‑JEPA 提供了一条引人注目、对开发者友好的路径，以构建更稳健的视觉‑语言‑动作代理，其无泄漏的潜在预测范式有望成为具身 AI 预训练的新标准。

作者

Jingwen Sun
Wenyao Zhang
Zekun Qi
Shaojie Ren
Zezhi Liu
Hanxin Zhu
Guangzhong Sun
Xin Jin
Zhibo Chen

论文信息

arXiv ID: 2602.10098v1
分类: cs.RO, cs.CV
发布日期: 2026年2月10日
PDF: 下载 PDF

[Paper] VLA-JEPA：增强视觉-语言-动作模型的潜在世界模型

Overview

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 惊喜之笔：渐进式语义幻觉在 Vector Sketching 中

[Paper] UniT：统一多模态链式思考测试时扩展

[Paper] MonarchRT：高效注意力用于实时视频生成

[Paper] 面向 On-Policy SFT：分布判别理论及其在 LLM 训练中的应用