[Paper] DynamicVLA：用于动态对象操作的视觉-语言-动作模型

发布: 1周前 (2026年1月30日 GMT+8 02:59)

8 分钟阅读

原文: arXiv

Source: arXiv - 2601.22153v1

（此处缺少需要翻译的正文内容。请提供您希望翻译的文本，我将为您翻译成简体中文，并保持原有的格式、Markdown 语法以及技术术语不变。）

概述

DynamicVLA 解决了机器人学习中长期存在的一个空白：对实时移动或变化的物体进行操作。虽然现有的视觉‑语言‑动作（VLA）模型在静态的抓取‑放置任务上表现出色，但在需要预测运动、在毫秒级别作出反应并持续调整抓握时却表现不佳。作者提出了一种紧凑、快速推理的 VLA 架构，并配合一个新的基准测试（DOM），共同推动动态操作向实际的真实世界部署迈进。

关键贡献

DynamicVLA framework – 一个 0.4 B 参数的 VLA，将卷积视觉编码器与语言和动作头融合，针对低延迟、闭环控制进行优化。
Continuous Inference – 感知‑推理与运动执行流水线重叠，与传统逐步推理相比，将反应延迟降低最高可达 60 %。
Latent‑aware Action Streaming – 一种时间对齐机制，将潜在表征直接流入控制器，消除感知‑执行间隙。
DOM benchmark – 一个大规模合成加真实数据集（约 20 万合成剧集，2 千真实剧集），覆盖 2.8 千场景和 206 种对象，专为动态操作研究设计。
Empirical validation – 大量实验表明在模拟和真实机器人上具有更高的速度、精度和泛化能力，包括跨形体迁移。

方法论

紧凑视觉编码器 – 与笨重的 Vision Transformers 不同，DynamicVLA 使用浅层卷积骨干网络，既保留空间结构，又将模型规模控制在 0.4 B 参数。这使得在普通 GPU 或边缘设备上进行推理，延迟低于 30 ms。
多模态融合 – 语言指令（例如 “catch the rolling ball”）被嵌入后与视觉特征在多个时间尺度上拼接。融合后的潜在表示被送入轻量级动作解码器，预测连续的运动指令。
连续推理循环
- 感知线程 持续将相机帧流式传输到编码器。
- 推理线程 在新帧到达时更新潜在表示，无需等待前一次动作完成。
- 执行线程 使用最新的潜在表示以高控制频率（≈100 Hz）生成运动指令。
潜在感知动作流 – 系统强制施加时间一致性损失，使潜在轨迹与真实动作轨迹对齐，确保控制器接收到平滑、前瞻的信号，而不是滞后的快照。
数据收集流水线 – 自动化模拟器生成多样的动态场景（抛掷、滑动、旋转的物体），并记录同步的视觉、语言和动作流。无需遥控的真实世界流水线使用动作捕捉标记和现成相机，大规模捕获可比的数据。

结果与发现

指标	Static VLA（基线）	DynamicVLA（我们的）
反应延迟（ms）	120	48
移动物体捕获成功率（仿真）	62 %	89 %
移动物体捕获成功率（真实）	48 %	81 %
对未见物体的零样本泛化	55 %	78 %
参数数量	1.2 B	0.4 B

速度： 连续推理将感知到动作的延迟降低约60 %，对快速移动的物体至关重要。
准确性： 潜在感知流式处理产生更平滑的轨迹，将超调误差降低40 %。
泛化能力： 紧凑的编码器学习了更具可迁移性的空间特征，使模型能够处理训练期间未见过的物体和场景。
跨形体： 在 7‑自由度机械臂上训练的策略转移到 6‑自由度移动操作平台时，性能损失低于 5 %，展示了形体无关的推理能力。

Practical Implications

机器人开发者 现在可以将预训练的 DynamicVLA 检查点集成到现有的 ROS 流程中，实现亚 100 毫秒的响应时间，而无需定制硬件。
制造与物流：使用单一统一模型即可实现快速的传送带物品抓取与放置，或捕捉掉落部件，而不必依赖手工编写的状态机。
辅助机器人：服务机器人能够安全拦截移动物体（例如，将杯子递给行走中的用户），并具备可靠的预测能力。
仿真到现实的迁移：DOM 基准提供了即用型数据集，用于训练和评估动态策略，降低了初创公司在数据收集方面的门槛。
边缘部署：0.4 B 的模型体积可适配现代 Jetson 或 Coral 设备，为移动平台上的板载推理打开了可能。

限制与未来工作

传感器模态：当前系统依赖 RGB 视觉；整合深度或触觉反馈可进一步提升在遮挡或低光环境下的鲁棒性。
复杂动力学：极高速物体（>5 m/s）仍然对延迟预算构成挑战；未来可能需要硬件加速的编码器或预测模型。
基准多样性：虽然 DOM 包含了大量物体和场景，但缺乏将动态操作与导航相结合的长时程任务——这是扩展数据集的方向。
少样本学习：模型仍然受益于大规模合成预训练；对元学习或基于提示的适应性研究可能降低数据需求。

DynamicVLA 标志着向真正敏捷、感知驱动的机器人迈出的重要一步，这些机器人能够在混乱、不断变化的真实世界中安全高效地运行。对于渴望实验的开发者，作者已开源代码、预训练权重和 DOM 基准，使得开始构建下一代动态操作应用变得轻而易举。

作者

Haozhe Xie
Beichen Wen
Jiarui Zheng
Zhaoxi Chen
Fangzhou Hong
Haiwen Diao
Ziwei Liu

论文信息

arXiv ID: 2601.22153v1
分类: cs.RO, cs.CV
发表时间: 2026年1月29日
PDF: 下载 PDF

[Paper] DynamicVLA：用于动态对象操作的视觉-语言-动作模型

概述

关键贡献

方法论

结果与发现

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[Paper] VideoGPA：蒸馏几何先验以实现3D一致的视频生成

[论文] XR 环境中 Open-Set Object Detection 的用户提示策略与提示增强方法

[Paper] 去噪深空：基于物理的 CCD 噪声形成用于天文成像

[Paper] PaperBanana：为 AI 科学家自动化学术插图