[Paper] VacuumVLA: 복합 로봇 조작을 위한 통합 흡입 및 그리핑 도구를 통한 VLA 능력 향상

발행: (2025년 11월 27일 오전 01:29 GMT+9)
9 min read
원문: arXiv

Source: arXiv - 2511.21557v1

Overview

이 논문은 VacuumVLA라는 저비용, 플러그‑앤‑플레이 엔드‑이펙터를 소개한다. 이 장치는 고전적인 두 손가락 그리퍼와 진공 흡입 모듈을 결합한다. Vision‑Language‑Action (VLA) 시스템에 두 번째 “손”을 제공함으로써, 저자는 단일 로봇이 매끄러운 유리 패널을 들어올리는 것부터 손잡이가 없는 서랍을 당겨 여는 것까지 다양한 조작 작업을 수행할 수 있도록 작업 범위를 크게 확장한다.

Key Contributions

  • Hybrid hardware design: 3‑D 프린팅이 가능한 컴팩트한 모듈로, 평행턱 그리퍼와 진공 흡입 컵을 기계적으로 통합하고 단일 제어 인터페이스를 제공한다.
  • Dual‑mode operation: 재설정 없이 전용(그리퍼 전용 또는 흡입 전용) 및 시너지(그리퍼 + 흡입 동시) 조작을 지원한다.
  • Seamless VLA integration: 최신 VLA 파이프라인 두 개인 DexVLA와 Pi0에 플러그인하여, 동일한 비전‑언어 모델이 실시간으로 적절한 모달리티를 선택하도록 학습할 수 있음을 보여준다.
  • Open‑source release: 전체 CAD 파일, 배선 도면, ROS‑호환 드라이버를 공개하여 연구실 및 스타트업의 진입 장벽을 낮춘다.
  • Empirical validation: 12개의 실제 작업(예: 유리 닦기, 손잡이 없는 서랍 열기, 얇은 시트 집기)에서 성공률이 최대 90 %에 달함을 입증했으며, 이는 일반 두 손가락 그리퍼로는 약 30 %에 불과한 성능을 크게 초과한다.

Methodology

  1. Hardware integration – 저자들은 소형 진공 펌프와 흡입 컵을 표준 평행턱 그리퍼 측면에 장착한다. 단일 마이크로컨트롤러(Arduino Nano)가 VLA 정책으로부터 이진 “모드” 명령을 읽어 그리퍼 모터, 흡입 펌프, 혹은 두 개를 동시에 구동한다.
  2. Control abstraction – VLA 소프트웨어 스택에서 엔드‑이펙터는 단일 행동 원시 형태로 노출되며, GRIP, SUCTION, GRIP+SUCTION의 세 가지 이산 서브‑액션을 가진다. 이는 언어 모델의 행동 공간을 그대로 유지하면서 표현력을 확장한다.
  3. Training & inference – 저자들은 RGB‑D 이미지, 자연어 작업 설명, 그리고 새로운 하이브리드 행동을 포함한 시연 궤적으로 구성된 혼합 데이터셋을 사용해 DexVLA와 Pi0를 미세조정한다. 추가 언어 토큰은 필요 없으며, 모델은 “유리를 집어 올려”와 같은 구문을 SUCTION 원시 형태에 매핑하는 방법을 학습한다.
  4. Evaluation protocol – 각 작업을 Franka Emika Panda 로봇에서 20회 실행한다. 성공은 인간 개입 없이 고수준 목표(예: “표면을 닦아라”)를 달성하는 것으로 정의한다. 베이스라인은 동일한 VLA 모델을 사용하지만 일반 두 손가락 그리퍼만을 장착한다.

Results & Findings

작업 카테고리성공률 (하이브리드)성공률 (그리퍼 전용)
유리 닦기92 %18 %
얇은 시트 집기88 %25 %
손잡이 없는 서랍 당기기85 %30 %
혼합 객체 (그리퍼 + 흡입)90 %40 %
  • 모드 선택이 자동으로 학습 – VLA 정책은 매끄럽고 질량이 가벼운 물체에는 흡입을, 형태가 불규칙한 물체에는 그리퍼를 올바르게 선택한다. 동일한 텍스트 명령이 사용되더라도 자동으로 구분한다.
  • 시너지 사용이 안정성 향상 – 무겁거나 부분적으로 다공성인 물체에 대해 그리퍼와 흡입을 동시에 활성화하면, 단일 모드에 비해 들어올릴 수 있는 용량이 약 35 % 증가한다.
  • 지연 시간 미감지 – 펌프 제어가 추가된 오버헤드가 < 50 ms에 불과해 VLA 추론 루프의 실시간 제약을 충분히 만족한다.

Practical Implications

  • 신속한 프로토타이핑 – 로봇 스타트업은 VacuumVLA 모듈을 3‑D 프린트하고 기존 팔에 레트로핏함으로써, 조작기 전체를 재설계하지 않고도 제품의 작업 포트폴리오를 즉시 확장할 수 있다.
  • 창고 및 물류 – 광택이 나는 포장재나 얇은 골판지 시트의 진공 보조 피킹이 가능해져, 단일 라인에 여러 특수 엔드‑이펙터를 배치할 필요가 줄어든다.
  • 서비스 로봇 – 가정용 어시스턴트가 이제 창문을 닦고, 조리대 위를 닦으며, 전통적인 손잡이가 없는 세련된 캐비닛을 열 수 있게 된다—이전에는 VLA 기반 로봇이 수행하기 어려웠던 기능이다.
  • 연구 가속 – 하드웨어와 ROS 드라이버를 공개함으로써, 커뮤니티는 보다 풍부한 조작 원시 형태에 대해 새로운 VLA 아키텍처를 벤치마크할 수 있어, 보다 견고하고 일반화된 정책 개발을 촉진한다.

Limitations & Future Work

  • 흡입력 제한 – 현재 저비용 펌프는 무겁거나 매우 다공성인 물체를 다루는 데 한계가 있다; 산업용 수준의 흡입력을 얻으려면 보다 견고한 하드웨어가 필요하다.
  • 표면 의존성 – 텍스처가 있거나 기름진 표면에서는 흡입 효율이 떨어져, 적응형 흡입 패드나 하이브리드 촉각 센서가 요구된다.
  • 학습 샘플 효율성 – 하이브리드 행동을 엔드‑투‑엔드로 학습했지만, 가장 복잡한 작업에서 최고 성능에 도달하려면 추가 시연(≈ 10 % 추가)이 필요하다고 저자들은 언급한다.
  • 향후 방향 – 팀은 궤적 중간에 동적 모드 전환(예: 그리퍼‑후‑흡입)을 탐구하고, 힘/토크 피드백을 통합해 접촉이 많은 작업을 보다 안전하게 수행하는 방안을 계획하고 있다.

VacuumVLA는 작은 하드웨어 수정만으로도 비전‑언어 기반 로봇에게 새로운 실세계 작업군을 열어줄 수 있음을 보여주며, 일반 목적 조작이 일상적인 배치에 한 걸음 더 다가가게 만든다.

Authors

  • Hui Zhou
  • Siyuan Huang
  • Minxing Li
  • Hao Zhang
  • Lue Fan
  • Shaoshuai Shi

Paper Information

  • arXiv ID: 2511.21557v1
  • 분류: cs.RO, cs.AI
  • 발행일: 2025년 11월 26일
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »

[Paper] 보편적 가중치 부분공간 가설

우리는 다양한 작업에 대해 학습된 딥 뉴럴 네트워크가 놀라울 정도로 유사한 저차원 파라메트릭 서브스페이스를 나타낸다는 것을 보여준다. 우리는 최초의 대규모…