[Paper] VLA Foundry：用于训练视觉-语言-动作模型的统一框架

发布: 2天前 (2026年4月22日 GMT+8 01:51)

7 分钟阅读

原文: arXiv

Source: arXiv - 2604.19728v1

概述

本文介绍了 VLA Foundry，一个开源工具包，将语言模型（LLM）、视觉模型（VLM）和视觉‑语言‑动作模型（VLA）统一在单一训练流水线中。通过消除通常将预训练与动作微调分开的 “glue‑code” 噩梦，该框架使研究人员和工程师能够从头构建端到端的具身代理——或通过插入流行的预训练骨干网络——同时保持整个堆栈的可复现性和可扩展性。

关键贡献

统一的训练栈 处理 LLM 预训练、VLM 预训练和 VLA 微调，全部在同一代码库中。
支持从头训练和预训练的骨干网络（例如 Qwen3‑VL），通过简单的 Hugging Face 接口。
两套已发布的模型系列：
1. 完全从头开始的 LLM → VLM → VLA 流程，匹配作者之前的闭源结果。
2. 基于 Qwen3‑VL 的 VLA，在多任务桌面操作上实现了大幅提升。
开源评估套件（LBM Eval）和改进的模拟器/STEP 分析工具，便于基准测试。
公开发布代码、模型权重和演示视频，降低社区的入门门槛。

Source: …

方法论

VLA Foundry 将具身 AI 的三个阶段视为模块化组件：

语言预训练 (LLM) – 标准的因果或编码器‑解码器 Transformer 在大规模文本语料上进行训练，可选地使用来自 Hugging Face 的已有检查点。
视觉‑语言预训练 (VLM) – 多模态编码器将图像块与 token 嵌入对齐，利用对比学习或图文匹配目标。
视觉‑语言‑动作微调 (VLA) – 将融合的 LLM‑VLM 模型扩展为带有策略头的模型，用于预测低层次机器人动作（例如末端执行器姿态）。训练使用在 LBM Eval 仿真器中生成的强化学习式轨迹，结合行为克隆和 RL‑style 损失项。

这三个阶段共享统一的数据加载器、分词器和检查点处理逻辑，因此替换组件（例如将预训练的 Qwen3‑VL 编码器换成自定义的）只需少量配置更改。整个流水线通过 Hydra/YAML 配置进行编排，代码库基于 PyTorch + Accelerate 实现多 GPU 扩展。

结果与发现

模型	训练方案	LBM 评估成功率（跨任务平均）
从头训练 LLM → VLM → VLA	端到端从零开始	≈ 78 %（与作者之前的闭源系统持平）
基于 Qwen3‑VL 的 VLA	预训练视觉语言编码器 + 策略微调	≈ 92 %（相较基线有显著提升）

从头训练流水线表明，完全开源的堆栈可以在没有任何专有组件的情况下实现竞争性的性能。
利用强大的预训练视觉语言骨干（Qwen3‑VL）在多任务桌面操作中带来大幅提升，确认了迁移学习对具身策略的价值。
定性视频展示了平滑的闭环交互（例如，拾取物体、堆叠方块），尽管模型是在相对有限的模拟数据集上训练的。

实际意义

快速原型: 开发者可以通过从 Hugging Face 选择预训练的 LLM/VLM，微调少量配置标志，并启动微调任务，快速创建新的 VLA 代理——无需拼接多个仓库。
降低计算门槛: 从头开始的流水线可以在普通的多 GPU 机器上运行，使研究实验室和初创公司能够在不依赖大型 TPU 集群的情况下进行实验。
标准化基准测试: 通过捆绑 LBM Eval 和 STEP 分析工具，团队能够客观地比较策略，促进可复现的研究并简化具身 AI 产品的 CI 测试。
迁移到真实机器人: 模块化的策略头可以替换为机器人专用的控制器（例如 ROS2 动作服务器），为从仿真到硬件部署提供直接路径。
社区成长: 开放的权重和文档完善的代码库鼓励贡献——新任务、数据增强或自定义模拟器都可以轻松接入，几乎没有阻力。

限制与未来工作

仅仿真评估：所有实验均局限于 LBM Eval 仿真器；真实世界的迁移尚未测试。
任务范围：基准测试聚焦于桌面操作；扩展到导航、长时程规划或多代理场景可能会暴露出扩展性挑战。
大型骨干网络的计算成本：虽然框架支持从头训练，但对像 Qwen3‑VL 这样的大模型进行微调仍然需要高端 GPU 并且需要仔细的内存管理。
作者提出的未来方向 包括：整合真实世界机器人的数据管道、添加逐步加难的课程学习，以及扩展框架以支持多模态反馈（例如触觉或音频）。

作者

Jean Mercat
Sedrick Keh
Kushal Arora
Isabella Huang
Paarth Shah
Haruki Nishimura
Shun Iwase
Katherine Liu

论文信息

arXiv ID: 2604.19728v1
Categories: cs.RO, cs.AI, cs.CV, cs.LG, cs.SE
发表日期: 2026年4月21日
PDF: 下载 PDF

[Paper] VLA Foundry：用于训练视觉-语言-动作模型的统一框架

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 观察快与慢：学习视频中的时间流动

[Paper] 当提示取代视觉时：提示诱导的幻觉在 LVLMs 中

[Paper] Trust-SSL：加性残差选择性不变性用于鲁棒航空自监督学习

[Paper] FedSIR：带噪声标签的联邦学习的谱客户端识别与重新标记