[Paper] DynamicVLA:用于动态对象操作的视觉-语言-动作模型

发布: (2026年1月30日 GMT+8 02:59)
8 min read
原文: arXiv

Source: arXiv - 2601.22153v1

(此处缺少需要翻译的正文内容。请提供您希望翻译的文本,我将为您翻译成简体中文,并保持原有的格式、Markdown 语法以及技术术语不变。)

概述

DynamicVLA 解决了机器人学习中长期存在的一个空白:对实时移动或变化的物体进行操作。虽然现有的视觉‑语言‑动作(VLA)模型在静态的抓取‑放置任务上表现出色,但在需要预测运动、在毫秒级别作出反应并持续调整抓握时却表现不佳。作者提出了一种紧凑、快速推理的 VLA 架构,并配合一个新的基准测试(DOM),共同推动动态操作向实际的真实世界部署迈进。

关键贡献

  • DynamicVLA framework – 一个 0.4 B 参数的 VLA,将卷积视觉编码器与语言和动作头融合,针对低延迟、闭环控制进行优化。
  • Continuous Inference – 感知‑推理与运动执行流水线重叠,与传统逐步推理相比,将反应延迟降低最高可达 60 %。
  • Latent‑aware Action Streaming – 一种时间对齐机制,将潜在表征直接流入控制器,消除感知‑执行间隙。
  • DOM benchmark – 一个大规模合成加真实数据集(约 20 万合成剧集,2 千真实剧集),覆盖 2.8 千场景和 206 种对象,专为动态操作研究设计。
  • Empirical validation – 大量实验表明在模拟和真实机器人上具有更高的速度、精度和泛化能力,包括跨形体迁移。

方法论

  1. 紧凑视觉编码器 – 与笨重的 Vision Transformers 不同,DynamicVLA 使用浅层卷积骨干网络,既保留空间结构,又将模型规模控制在 0.4 B 参数。这使得在普通 GPU 或边缘设备上进行推理,延迟低于 30 ms。

  2. 多模态融合 – 语言指令(例如 “catch the rolling ball”)被嵌入后与视觉特征在多个时间尺度上拼接。融合后的潜在表示被送入轻量级动作解码器,预测连续的运动指令。

  3. 连续推理循环

    • 感知线程 持续将相机帧流式传输到编码器。
    • 推理线程 在新帧到达时更新潜在表示,无需等待前一次动作完成。
    • 执行线程 使用最新的潜在表示以高控制频率(≈100 Hz)生成运动指令。
  4. 潜在感知动作流 – 系统强制施加时间一致性损失,使潜在轨迹与真实动作轨迹对齐,确保控制器接收到平滑、前瞻的信号,而不是滞后的快照。

  5. 数据收集流水线 – 自动化模拟器生成多样的动态场景(抛掷、滑动、旋转的物体),并记录同步的视觉、语言和动作流。无需遥控的真实世界流水线使用动作捕捉标记和现成相机,大规模捕获可比的数据。

结果与发现

指标Static VLA(基线)DynamicVLA(我们的)
反应延迟(ms)12048
移动物体捕获成功率(仿真)62 %89 %
移动物体捕获成功率(真实)48 %81 %
对未见物体的零样本泛化55 %78 %
参数数量1.2 B0.4 B
  • 速度: 连续推理将感知到动作的延迟降低约60 %,对快速移动的物体至关重要。
  • 准确性: 潜在感知流式处理产生更平滑的轨迹,将超调误差降低40 %。
  • 泛化能力: 紧凑的编码器学习了更具可迁移性的空间特征,使模型能够处理训练期间未见过的物体和场景。
  • 跨形体: 在 7‑自由度机械臂上训练的策略转移到 6‑自由度移动操作平台时,性能损失低于 5 %,展示了形体无关的推理能力。

Practical Implications

  • 机器人开发者 现在可以将预训练的 DynamicVLA 检查点集成到现有的 ROS 流程中,实现亚 100 毫秒的响应时间,而无需定制硬件。
  • 制造与物流:使用单一统一模型即可实现快速的传送带物品抓取与放置,或捕捉掉落部件,而不必依赖手工编写的状态机。
  • 辅助机器人:服务机器人能够安全拦截移动物体(例如,将杯子递给行走中的用户),并具备可靠的预测能力。
  • 仿真到现实的迁移:DOM 基准提供了即用型数据集,用于训练和评估动态策略,降低了初创公司在数据收集方面的门槛。
  • 边缘部署:0.4 B 的模型体积可适配现代 Jetson 或 Coral 设备,为移动平台上的板载推理打开了可能。

限制与未来工作

  • 传感器模态:当前系统依赖 RGB 视觉;整合深度或触觉反馈可进一步提升在遮挡或低光环境下的鲁棒性。
  • 复杂动力学:极高速物体(>5 m/s)仍然对延迟预算构成挑战;未来可能需要硬件加速的编码器或预测模型。
  • 基准多样性:虽然 DOM 包含了大量物体和场景,但缺乏将动态操作与导航相结合的长时程任务——这是扩展数据集的方向。
  • 少样本学习:模型仍然受益于大规模合成预训练;对元学习或基于提示的适应性研究可能降低数据需求。

DynamicVLA 标志着向真正敏捷、感知驱动的机器人迈出的重要一步,这些机器人能够在混乱、不断变化的真实世界中安全高效地运行。对于渴望实验的开发者,作者已开源代码、预训练权重和 DOM 基准,使得开始构建下一代动态操作应用变得轻而易举。

作者

  • Haozhe Xie
  • Beichen Wen
  • Jiarui Zheng
  • Zhaoxi Chen
  • Fangzhou Hong
  • Haiwen Diao
  • Ziwei Liu

论文信息

  • arXiv ID: 2601.22153v1
  • 分类: cs.RO, cs.CV
  • 发表时间: 2026年1月29日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »