[Paper] VacuumVLA: 通过统一的吸取和抓取工具提升 VLA 能力以实现复杂机器人操作
发布: (2025年11月27日 GMT+8 00:29)
7 min read
原文: arXiv
Source: arXiv - 2511.21557v1
概览
本文介绍了 VacuumVLA,一种低成本、即插即用的末端执行器,它将经典的双指夹爪与真空吸附模块融合在一起。通过为视觉‑语言‑动作(VLA)系统提供第二只“手”用于抓取、吸附和擦拭,作者显著扩展了单个机器人能够处理的操作任务范围——从提升光滑的玻璃板到拉开无把手的抽屉皆可实现。
关键贡献
- 混合硬件设计:一种紧凑、可 3‑D 打印的模块,机械上集成了平行夹爪和真空吸盘,且仅需单一控制接口。
- 双模态操作:支持 独占(仅抓取或仅吸附)和 协同(抓取 + 吸附同时)操作,无需重新装配工具。
- 无缝 VLA 集成:接入两条最先进的 VLA 流水线——DexVLA 和 Pi0——展示同一视觉‑语言模型能够实时选择合适的模态。
- 开源发布:完整的 CAD 文件、接线原理图以及兼容 ROS 的驱动程序均公开,可降低实验室和创业公司的使用门槛。
- 实证验证:在 12 项真实任务(如玻璃擦拭、无把手抽屉开启、薄片抓取)上的基准测试显示成功率最高可达 90 %——远超仅使用双指夹爪的约 30 %。
方法论
- 硬件集成 – 作者在标准平行夹爪侧面安装了微型真空泵和吸盘。单片微控制器(Arduino Nano)读取 VLA 策略下发的二进制“模式”指令,并驱动夹爪电机、真空泵或两者同时工作。
- 控制抽象 – 在 VLA 软件栈中,末端执行器被暴露为 单一 动作原语,包含三个离散子动作:
GRIP、SUCTION、GRIP+SUCTION。这保持了语言模型的动作空间不变,同时提升了表达能力。 - 训练与推理 – 作者在混合数据集(RGB‑D 图像、自然语言任务描述以及包含新混合动作的示范轨迹)上微调 DexVLA 和 Pi0。无需额外的语言 token,模型即可学习将 “pick up the glass” 等短语映射到
SUCTION原语。 - 评估协议 – 每个任务在 Franka Emika Panda 机器人上执行 20 次。成功定义为在无人干预的情况下完成高级目标(例如 “擦拭表面”)。基线使用相同的 VLA 模型,但仅配备普通双指夹爪。
结果与发现
| 任务类别 | 成功率(混合) | 成功率(仅夹爪) |
|---|---|---|
| 玻璃擦拭 | 92 % | 18 % |
| 薄片抓取 | 88 % | 25 % |
| 无把手抽屉拉开 | 85 % | 30 % |
| 混合对象(抓取 + 吸附) | 90 % | 40 % |
- 模式选择自动学习 – VLA 策略能够根据光滑、低质量的物体自动选择吸附,对不规则形状则选择抓取,即使使用相同的文本指令。
- 协同使用提升稳定性 – 对于重量较大或部分多孔的物体,同时激活抓取和吸附可将提升能力提升约 35 %,优于单一模式。
- 无显著延迟 – 额外的泵控仅增加 < 50 ms 的开销,完全符合 VLA 推理回路的实时要求。
实际意义
- 快速原型 – 机器人创业公司可直接 3‑D 打印 VacuumVLA 模块并改装现有机械臂,瞬间扩展产品的任务范围,无需重新设计整套操纵器。
- 仓储与物流 – 对光亮包装或薄纸板的真空辅助抓取变得可行,减少了单条生产线需要配备多种专用末端执行器的需求。
- 服务机器人 – 家庭助理现在可以清洁窗户、擦拭台面或打开没有传统把手的光滑柜门,这些能力此前对基于 VLA 的机器人来说几乎不可实现。
- 研究加速 – 通过开源硬件和 ROS 驱动,作者让社区能够在更丰富的操作原语上基准新的 VLA 架构,推动更稳健、通用的策略发展。
局限性与未来工作
- 吸力受限 – 当前低成本泵在处理重物或高度多孔物体时表现不足;若要用于工业级别的吸附,需要更强大的硬件。
- 表面依赖 – 在纹理或油污表面上吸附效果下降,提示需要自适应吸盘或结合触觉感知。
- 学习样本效率 – 虽然混合动作能够端到端学习,但作者指出在最复杂任务上仍需约 10 % 的额外示范才能达到最佳性能。
- 未来方向 – 团队计划探索轨迹中途的动态模式切换(如先抓取后吸附),并集成力/扭矩反馈以实现更安全的接触密集操作。
VacuumVLA 表明,仅通过一次适度的硬件改动,就能为视觉‑语言驱动的机器人解锁全新类别的真实任务,使通用操作离日常部署更进一步。
作者
- Hui Zhou
- Siyuan Huang
- Minxing Li
- Hao Zhang
- Lue Fan
- Shaoshuai Shi
论文信息
- arXiv ID: 2511.21557v1
- 分类: cs.RO, cs.AI
- 发布日期: 2025 年 11 月 26 日
- PDF: Download PDF