[Paper] SpaceTools: 툴-증강 공간 추론 via 이중 인터랙티브 RL

발행: (2025년 12월 4일 오전 03:50 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2512.04069v1

개요

이 논문은 SpaceTools라는 새로운 프레임워크를 소개한다. 이 프레임워크는 대형 비전‑언어 모델(VLM)이 깊이 추정기, 세그멘테이션 네트워크, 포즈 검출기 등 여러 시각 “툴”을 호출하고 결합하는 방법을 학습함으로써 정밀한 기하학적 추론을 가능하게 한다. 저자들은 Double Interactive Reinforcement Learning (DIRL) 로 모델을 학습시켜 여러 벤치마크에서 최첨단 공간 추론 성능을 달성하고, 실제 7‑DOF 로봇에서 신뢰할 수 있는 조작을 시연한다.

주요 기여

  • DIRL 학습 파이프라인 – 전문가 툴‑전문가 시연을 먼저 학습시키고, 이후 다중 툴 협업을 탐색·정제하는 두 단계 강화학습 방식.
  • 툴‑증강 공간 추론 – 고정 파이프라인이나 수작업 프롬프트에 의존하지 않고, 모델이 실시간으로 여러 비전 툴을 선택·호출·융합하는 방법을 학습.
  • SpaceTools 모델 – RoboSpatial‑Home에서 기존 최고점 대비 +12 %, BLINK에서 +7.7 %, BOP‑ASK에서 +9.5 % 향상된 점수 기록.
  • 실세계 검증 – 7‑DOF 로봇 팔에 적용해 메트릭 수준 정확도가 요구되는 픽‑앤‑플레이스 및 포즈 조정 작업을 견고하게 수행.
  • 오픈소스 공개 – 코드, 사전 학습 체크포인트, 인터랙티브 데모를 모두 공개.

방법론

  1. 툴 스위트 – 시스템은 오프‑더‑쉘프 시각 모듈(깊이, 의미론적 세그멘테이션, 객체 포즈 추정)을 번들링한다. 각 툴은 자연어 명령으로 질의될 수 있으며, 구조화된 출력(예: 깊이 맵)을 반환한다.
  2. 학습 단계
    • 툴 전문가: 특정 추론 하위 작업(예: “가장 가까운 컵 찾기”)을 마스터하도록 인터랙티브 RL을 통해 단일 툴 에이전트를 훈련.
    • 프론티어 모델: 모든 툴을 호출할 수 있지만 아직 협업 능력이 없는 대형 VLM.
    • 전문가의 시연과 프론티어 모델의 트레이스를 혼합해 무엇을 해야 하는지와 어떤 툴을 호출해야 하는지를 보여주는 커리큘럼을 만든다.
  3. 탐색 단계 – 프론티어 모델은 RL을 계속 진행하며, 작업 성공(예: 올바른 공간 관계 분류) 기반 보상과 불필요한 툴 호출에 대한 페널티를 받는다. 이를 통해 효율적이고 목적 지향적인 툴 사용을 장려한다.
  4. 정책 아키텍처 – VLM의 언어 인코더와 경량 컨트롤러를 결합해 툴 선택 분포와 선택된 툴에 대한 텍스트 질의를 예측한다. 툴의 출력은 다시 언어 모델에 피드백되어 인지‑행동 루프를 완성한다.

결과 및 발견

벤치마크이전 최고 성능SpaceTools (DIRL)향상
RoboSpatial‑Home68.4 %80.5 %+12 %
BLINK (spatial QA)71.2 %78.9 %+7.7 %
BOP‑ASK (pose QA)64.0 %73.5 %+9.5 %
  • 툴 사용 효율성: 평균적으로 쿼리당 1.8개의 툴만 호출하며, 전면적인 탐색 방식(3.4개)보다 크게 감소.
  • 실세계 로봇 테스트: 서브‑센티미터 정밀도가 요구되는 7‑DOF 픽‑플레이스 작업에서 94 % 성공률을 기록, 단일 깊이 추정기만 사용한 베이스라인 VLM(71 % 성공)보다 우수.
  • 소거 실험: 학습 단계(전문가 시연)를 제거하면 성능이 약 8 % 감소, 다중 툴 협업에 전문가 시연이 핵심임을 확인.

실용적 함의

  • 임베디드 AI·로보틱스 – 개발자는 SpaceTools를 기존 로봇 스택에 바로 연결해, 복잡한 인식 파이프라인을 수작업으로 구성하지 않고도 메트릭 수준 공간 인식을 제공할 수 있다.
  • 모듈형 AI 서비스 – DIRL 프레임워크는 OCR, 3‑D 재구성 등任意 API 집합을 조율하도록 VLM을 교육하는 데 재사용 가능, 보다 유연한 AI 어시스턴트 구현의 길을 연다.
  • 엔지니어링 비용 절감 – 깊이 → 세그멘테이션 → 포즈 모델을 수동으로 체인하는 대신, 시스템이 최적 순서를 스스로 학습해 시간과 계산 자원을 절약한다.
  • 혼합 현실 UI 개선 – 정확한 객체 배치가 필요한 AR 가구 배치, 원격 텔레오퍼레이션 등에서 모델이 실행 시점에 필요한 툴을 직접 요청할 수 있어 사용자 경험이 향상된다.

제한 사항 및 향후 연구

  • 툴 의존성 – 성능은 기본 시각 툴의 품질에 크게 좌우된다; 노이즈가 많은 깊이·포즈 추정기는 결과를 저하시킬 수 있다.
  • 툴 집합 확장성 – 현재는 소수의 툴을 잘 다루지만, 수십 개 모듈이 늘어나면 탐색 공간이 급격히 커져 보다 스마트한 커리큘럼이나 계층적 선택 전략이 필요하다.
  • 미지 도메인 일반화 – 벤치마크가 실내 가정 환경에 집중돼 있어, 실외·산업 현장으로 확장하려면 도메인‑특화 툴 파인튜닝이 요구될 수 있다.
  • 향후 방향 (저자 제안)
    1. 대규모 툴 라이브러리를 관리하기 위한 계층형 DIRL.
    2. 작업 난이도에 따라 툴 선택을 조정하는 커리큘럼 학습.
    3. 폐쇄‑루프 조작을 위한 저수준 로봇 컨트롤러와의 긴밀한 통합.

저자

  • Siyi Chen
  • Mikaela Angelina Uy
  • Chan Hee Song
  • Faisal Ladhak
  • Adithyavairavan Murali
  • Qing Qu
  • Stan Birchfield
  • Valts Blukis
  • Jonathan Tremblay

논문 정보

  • arXiv ID: 2512.04069v1
  • 분류: cs.CV, cs.RO
  • 발표일: 2025년 12월 3일
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »

[Paper] 보편적 가중치 부분공간 가설

우리는 다양한 작업에 대해 학습된 딥 뉴럴 네트워크가 놀라울 정도로 유사한 저차원 파라메트릭 서브스페이스를 나타낸다는 것을 보여준다. 우리는 최초의 대규모…