[Paper] 从观察到行动:基于潜在动作的原语分割用于工业环境中的 VLA 预训练
发布: (2025年11月26日 GMT+8 22:19)
6 min read
原文: arXiv
Source: arXiv - 2511.21428v1
概览
一种新的无监督框架使制造商能够将源源不断的车间原始视频转化为干净的、带有动作标签的剪辑,直接供 Vision‑Language‑Action (VLA) 模型使用。通过自动从人类示范中发现“动作原语”,该方法有望加速具身 AI 系统在装配、检测和机器人交接等任务上的训练。
关键贡献
- 轻量级运动分词器:将原始像素运动转换为紧凑的潜在编码,无需任何人工标注。
- 潜在动作能量(LAE)度量:用于无监督分割,精准定位底层动作动力学变化的时刻。
- 端到端流水线:输出分段视频片段及其对应的潜在动作序列,直接用于 VLA 预训练。
- 实证验证:在公开基准和专有电机装配数据集上展示了语义一致的原语发现。
- 首个全自动系统:能够大规模从非结构化工业视频流中提取 VLA‑ready 数据。
方法论
- 运动分词 – 一个浅层卷积网络处理光流或帧差输入,并学习离散码本(类似 video‑BPE)。每个短时间窗口用一个捕获其运动模式的 token 表示。
- 潜在动作能量(LAE) – 作者将 LAE 定义为滑动窗口内 token 嵌入的方差。LAE 峰值表明运动动力学的转变,通常对应一个动作原语的开始或结束。
- 无监督分割 – 通过检测 LAE 峰值并应用简单的平滑滤波,将视频划分为连续片段。每个片段继承其内部出现的运动 token 序列。
- 后处理与聚类 – 使用预训练的视觉‑语言模型(如 CLIP)对片段进行聚类,以验证不同工人和视角之间的语义相似性。
- 数据导出 – 最终输出包括 (i) 短视频剪辑(≈2–5 秒)和 (ii) 其潜在动作 token 序列,均可直接供 VLA 预训练管线使用。
结果与发现
| 数据集 | 提取的片段数 | 平均片段时长 | 语义纯度* |
|---|---|---|---|
| EPIC‑Kitchens(公开) | 12.4k | 3.2 秒 | 78 % |
| Motor‑Assembly(专有) | 8.1k | 2.9 秒 | 81 % |
*纯度通过对片段的 CLIP 嵌入进行聚类,并检查其与人工标注动作标签的对齐程度(仅用于评估)。
- 分割质量 可与需要手工启发式或部分标注的弱监督基线相媲美。
- 潜在动作序列 捕获可重复的模式(例如 “抓‑螺丝‑拧紧”),可在不同产品线上复用。
- 可扩展性 – 分词器在单个 GPU 上以约 150 fps 运行,支持近实时处理实时摄像头流。
实际意义
- 快速数据集创建 – 工厂现在可以从日常操作中收集训练数据,而无需停产进行人工标注。
- 启动机器人助理 – 提取的原语可用于模仿学习管线,让机器人仅凭几分钟的人类视频就学会 “如何拧紧螺栓”。
- 跨站点知识转移 – 由于潜在 token 与模态无关,在一个工厂上训练的模型可以用极少数据在另一个工厂上微调。
- 安全与合规监控 – 分段的动作日志便于审计操作员是否遵循标准作业程序,为 AI 辅助合规工具打开了大门。
- 成本降低 – 消除标注瓶颈将数据策划费用降低一个数量级,尤其对中小型制造商意义重大。
局限性与未来工作
- 对视觉运动质量的依赖 – 高度遮挡或低帧率的流会降低分词准确性;作者建议结合深度或惯性传感器。
- 缺乏显式对象语义 – 当前流水线仅对运动进行分组;若与目标检测结合,可生成更丰富的动作描述(如 “拧紧 螺栓 A”)。
- 评估局限于两个领域 – 需要在更广泛的装配线(如汽车、电子)上进行测试,以验证通用性。
- 未来方向 包括将分词器与下游 VLA 模型联合训练,以及利用弱文本线索(如操作员语音指令)对 LAE 度量进行自监督细化。
作者
- Jiajie Zhang
- Sören Schwertfeger
- Alexander Kleiner
论文信息
- arXiv ID: 2511.21428v1
- 分类: cs.CV, cs.AI
- 发表时间: 2025 年 11 月 26 日
- PDF: Download PDF