[Paper] VacuumVLA: 通过统一的吸取和抓取工具提升 VLA 能力以实现复杂机器人操作

发布: (2025年11月27日 GMT+8 00:29)
7 min read
原文: arXiv

Source: arXiv - 2511.21557v1

概览

本文介绍了 VacuumVLA,一种低成本、即插即用的末端执行器,它将经典的双指夹爪与真空吸附模块融合在一起。通过为视觉‑语言‑动作(VLA)系统提供第二只“手”用于抓取、吸附和擦拭,作者显著扩展了单个机器人能够处理的操作任务范围——从提升光滑的玻璃板到拉开无把手的抽屉皆可实现。

关键贡献

  • 混合硬件设计:一种紧凑、可 3‑D 打印的模块,机械上集成了平行夹爪和真空吸盘,且仅需单一控制接口。
  • 双模态操作:支持 独占(仅抓取或仅吸附)和 协同(抓取 + 吸附同时)操作,无需重新装配工具。
  • 无缝 VLA 集成:接入两条最先进的 VLA 流水线——DexVLA 和 Pi0——展示同一视觉‑语言模型能够实时选择合适的模态。
  • 开源发布:完整的 CAD 文件、接线原理图以及兼容 ROS 的驱动程序均公开,可降低实验室和创业公司的使用门槛。
  • 实证验证:在 12 项真实任务(如玻璃擦拭、无把手抽屉开启、薄片抓取)上的基准测试显示成功率最高可达 90 %——远超仅使用双指夹爪的约 30 %。

方法论

  1. 硬件集成 – 作者在标准平行夹爪侧面安装了微型真空泵和吸盘。单片微控制器(Arduino Nano)读取 VLA 策略下发的二进制“模式”指令,并驱动夹爪电机、真空泵或两者同时工作。
  2. 控制抽象 – 在 VLA 软件栈中,末端执行器被暴露为 单一 动作原语,包含三个离散子动作:GRIPSUCTIONGRIP+SUCTION。这保持了语言模型的动作空间不变,同时提升了表达能力。
  3. 训练与推理 – 作者在混合数据集(RGB‑D 图像、自然语言任务描述以及包含新混合动作的示范轨迹)上微调 DexVLA 和 Pi0。无需额外的语言 token,模型即可学习将 “pick up the glass” 等短语映射到 SUCTION 原语。
  4. 评估协议 – 每个任务在 Franka Emika Panda 机器人上执行 20 次。成功定义为在无人干预的情况下完成高级目标(例如 “擦拭表面”)。基线使用相同的 VLA 模型,但仅配备普通双指夹爪。

结果与发现

任务类别成功率(混合)成功率(仅夹爪)
玻璃擦拭92 %18 %
薄片抓取88 %25 %
无把手抽屉拉开85 %30 %
混合对象(抓取 + 吸附)90 %40 %
  • 模式选择自动学习 – VLA 策略能够根据光滑、低质量的物体自动选择吸附,对不规则形状则选择抓取,即使使用相同的文本指令。
  • 协同使用提升稳定性 – 对于重量较大或部分多孔的物体,同时激活抓取和吸附可将提升能力提升约 35 %,优于单一模式。
  • 无显著延迟 – 额外的泵控仅增加 < 50 ms 的开销,完全符合 VLA 推理回路的实时要求。

实际意义

  • 快速原型 – 机器人创业公司可直接 3‑D 打印 VacuumVLA 模块并改装现有机械臂,瞬间扩展产品的任务范围,无需重新设计整套操纵器。
  • 仓储与物流 – 对光亮包装或薄纸板的真空辅助抓取变得可行,减少了单条生产线需要配备多种专用末端执行器的需求。
  • 服务机器人 – 家庭助理现在可以清洁窗户、擦拭台面或打开没有传统把手的光滑柜门,这些能力此前对基于 VLA 的机器人来说几乎不可实现。
  • 研究加速 – 通过开源硬件和 ROS 驱动,作者让社区能够在更丰富的操作原语上基准新的 VLA 架构,推动更稳健、通用的策略发展。

局限性与未来工作

  • 吸力受限 – 当前低成本泵在处理重物或高度多孔物体时表现不足;若要用于工业级别的吸附,需要更强大的硬件。
  • 表面依赖 – 在纹理或油污表面上吸附效果下降,提示需要自适应吸盘或结合触觉感知。
  • 学习样本效率 – 虽然混合动作能够端到端学习,但作者指出在最复杂任务上仍需约 10 % 的额外示范才能达到最佳性能。
  • 未来方向 – 团队计划探索轨迹中途的动态模式切换(如先抓取后吸附),并集成力/扭矩反馈以实现更安全的接触密集操作。

VacuumVLA 表明,仅通过一次适度的硬件改动,就能为视觉‑语言驱动的机器人解锁全新类别的真实任务,使通用操作离日常部署更进一步。

作者

  • Hui Zhou
  • Siyuan Huang
  • Minxing Li
  • Hao Zhang
  • Lue Fan
  • Shaoshuai Shi

论文信息

  • arXiv ID: 2511.21557v1
  • 分类: cs.RO, cs.AI
  • 发布日期: 2025 年 11 月 26 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »