[Paper] 제로샷 인터랙티브 퍼셉션

발행: (2026년 2월 21일 오전 02:30 GMT+9)
9 분 소요
원문: arXiv

Source: arXiv - 2602.18374v1

개요

이 논문은 Zero‑Shot Interactive Perception (ZS‑IP) 를 소개합니다. 이는 로봇이 특정 작업에 대한 학습 없이 무엇을 해야 할지 추론할 수 있게 해주는 프레임워크입니다. 비전‑언어 모델(VLM)과 “pushlines”라는 경량 2‑D 시각적 단서 집합을 결합함으로써, 푸시가 물체에 어떤 영향을 미치는지를 인코딩합니다. 이를 통해 시스템은 물체가 가려져 있거나 숨겨져 있을 때도 푸시, 풀, 혹은 그립을 언제 수행할지 결정하고, 의미적 질의(예: “빨간 컵이 어디에 있나요?”)에 답할 수 있습니다.

핵심 기여

  • Pushlines: 가능한 밀기 방향을 이미지에 직접 인코딩하는 새로운 시각적 보강 기법으로, VLM이 단순 키포인트를 넘어서는 접촉‑풍부한 어포던스를 이해할 수 있게 합니다.
  • Enhanced Observation (EO) module: 기존 키포인트와 Pushlines를 결합하여 VLM에 보다 풍부한 컨텍스트를 제공하고, 제로‑샷 추론을 가능하게 합니다.
  • Memory‑guided action selection: 최근 관찰과 행동을 저장하는 경량 에피소드 메모리로, VLM이 상황‑인식된 의미론적 조회를 수행하도록 합니다.
  • Unified controller: 별도의 모션‑플래닝 네트워크 없이 VLM의 텍스트 출력만으로 밀기, 당기기, 잡기 행동을 실행합니다.
  • Empirical validation on a 7‑DOF Franka Panda: 숨겨진 물체를 드러내기 위해 밀어야 하는 작업에서 특히, 기존 수동 인식 베이스라인(예: MOKA)보다 우수한 성능을 보이며, 관련 없는 장면 요소는 그대로 유지합니다.

방법론

  1. Perception Front‑end – 로봇은 작업 공간의 RGB‑D 이미지를 캡처한다. 두 종류의 주석이 겹쳐진다:

    • Keypoints (표준 객체 랜드마크)와
    • Pushlines – 이미지에 그려진 짧은 선분으로, 각 보이는 표면에 대한 가능한 밀기 방향을 나타낸다. 이는 깊이 기하학과 접촉‑안정성 휴리스틱을 기반으로 자동 생성된다.
  2. Vision‑Language Model (VLM) – 사전 학습된 VLM(예: CLIP 기반)은 증강된 이미지와 자연어 질의(“파란 블록이 초록 상자 뒤에 있나요?”)를 함께 받는다. VLM이 해당 특정 작업을 본 적이 없기 때문에, 광범위한 시각 지식과 pushline 단서를 결합해 그럴듯한 답을 추론한다.

  3. Memory Module – 각 상호작용 후 시스템은 관찰 내용, VLM의 텍스트 응답, 실행된 행동을 기록한다. 새로운 질의가 들어오면 메모리를 조회해 상황을 제공한다(예: “우리는 이미 왼쪽을 밀었으니 물체는 오른쪽에 있어야 합니다”).

  4. Action Planner / Controller – VLM의 텍스트 결정(예: “왼쪽‑중앙을 밀어”)을 동작 원시 명령(밀기, 당기기, 잡기)으로 파싱한다. 컨트롤러는 이를 Franka Panda의 관절 궤적으로 변환해 안전 제약과 충돌 회피를 준수한다.

  5. Iterative Loop – 로봇은 인식 → VLM 추론 → 메모리 조회 → 행동을 반복하며 질의가 해결되거나 시간 제한에 도달할 때까지 진행한다.

결과 및 발견

지표ZS‑IP (push)MOKA (baseline)Passive Vision
성공률 (객체 노출)87 %62 %48 %
쿼리당 평균 푸시 횟수1.32.13.0
비대상 방해 (의도치 않게 이동된 객체)4 %9 %12 %
쿼리 지연 시간 (초)5.27.86.4
  • Pushlines는 푸시 정확도를 크게 향상시킵니다 – VLM이 푸시가 접촉할 위치를 직접 “볼” 수 있어 불필요한 동작이 줄어듭니다.
  • Memory guidance는 중복 행동을 감소시킵니다 – 시스템이 동일한 푸시 방향을 거의 반복하지 않아 상호작용 단계가 줄어듭니다.
  • Semantic correctness – 93 %의 경우 최종 답변이 실제 객체 위치와 일치했으며, 이는 제로샷 VLM 추론과 물리적 상호작용을 결합하면 가림 현상을 신뢰성 있게 해결할 수 있음을 보여줍니다.

Practical Implications

  • Rapid prototyping for warehouse robots: 엔지니어는 새로운 물품마다 인식 파이프라인을 직접 설계하지 않고도 고수준 명령(예: “빨간 상자를 가져와”)을 이해하는 로봇을 배치할 수 있다.
  • Service robotics in homes/offices: 푸시라인은 로봇이 어지러운 테이블이나 선반을 물건을 살짝 밀어 정리하도록 해 주며, 이는 정적인 비전 모델로 구현하기 어려운 기능이다.
  • Reduced data collection costs: ZS‑IP가 제로샷으로 작동하기 때문에 기업은 새로운 조작 시나리오마다 비용이 많이 드는 라벨링 작업을 피할 수 있다.
  • Safety‑aware interaction: 메모리 모듈이 섬세한 물품을 불필요하게 방해하지 않도록 도와주어, 협업 환경에 적합한 접근 방식이 된다.

제한 사항 및 향후 연구

  • 깊이 품질에 대한 의존: 푸시라인 생성은 비교적 깨끗한 깊이 데이터가 있다고 가정합니다; 노이즈가 많은 센서는 오해를 일으키는 푸시 신호를 만들 수 있습니다.
  • 메모리 확장성: 현재의 에피소드 메모리는 저장된 단계에 대해 선형적입니다; 더 크고 장기적인 작업은 보다 정교한 검색(예: 학습된 임베딩)이 필요할 수 있습니다.
  • 동작 레퍼토리 제한 (푸시/풀/그립): 슬라이딩, 롤링과 같은 더 복잡한 기본 동작으로 확장하려면 더 풍부한 증강이 필요합니다.
  • 새로운 객체 카테고리 일반화: 제로샷이지만, 시각적 특징이 VLM 사전 학습 분포와 크게 다른 객체에 대해서는 성능이 떨어집니다; 향후 연구에서는 few-shot 미세조정이나 도메인 적응을 포함할 수 있습니다.

저자

  • Venkatesh Sripada
  • Frank Guerin
  • Amir Ghalamzan

논문 정보

  • arXiv ID: 2602.18374v1
  • 분류: cs.RO, cs.AI
  • 출판일: 2026년 2월 20일
  • PDF: Download PDF
0 조회
Back to Blog

관련 글

더 보기 »

[Paper] 강인한 객체 인식을 위한 Latent Equivariant Operators: 약속과 도전

딥러닝이 컴퓨터 비전에서 성공을 거두었음에도 불구하고, 학습 중에 거의 보지 못한 그룹 대칭 변환을 겪은 객체를 인식하는 데 어려움이 지속됩니다. 기존 방법들은 데이터 증강에 의존하는데, 이는 계산 비용이 많이 들고 범위가 제한적이며, 혹은 견고함이 부족한 수작업 특징에 의존합니다. 본 연구에서는 보다 넓은 범위의 변환에 대한 불변성을 달성하기 위해 그룹-에퀴베리언트 컨볼루션과 어텐션 메커니즘을 통합한 새로운 아키텍처를 제안합니다. 우리의 모델은 제어된 변환을 가진 합성 데이터셋으로 학습되고 실제 벤치마크에서 평가되어, 최신 최첨단 베이스라인 대비 top-1 accuracy에서 12% 향상을 보여줍니다.