[Paper] 인간형 로봇 엔드 이펙터 제어 학습을 위한 Open-Vocabulary Visual Loco-Manipulation

발행: (2026년 2월 19일 오전 03:55 GMT+9)
9 분 소요
원문: arXiv

Source: arXiv - 2602.16705v1

개요

이 논문은 HERO라는 새로운 프레임워크를 소개한다. 이 프레임워크는 인간형 로봇이 일상 환경에서 시각적 단서만을 사용해 임의의 물체를 집어 옮길 수 있게 한다. 대규모 비전 모델(예: CLIP 스타일의 “오픈‑보카뷸러리” 인식)을 시뮬레이션에서 학습된 고정밀, 학습‑보강형 엔드‑이펙터(EE) 컨트롤러와 결합함으로써, 저자들은 사무실 책상부터 카페 테이블에 이르기까지 다양한 실제 환경에서 신뢰할 수 있는 이동‑조작을 구현한다.

핵심 기여

  • Residual‑aware EE tracking policy가 클래식 역기구학(IK)과 학습된 전방기구학(FK) 모델을 결합하여 추적 오차를 3.2× 감소시킵니다.
  • open‑vocabulary vision models(예: CLIP, ALIGN)의 모듈식 통합을 통해 제로‑샷 객체 인식 및 자세 추정을 수행하고, 자연어로 설명 가능한 any 객체의 조작을 가능하게 합니다.
  • Simulation‑first training pipeline은 광범위한 실제 데이터 수집 없이도 실제 하드웨어에 전이 가능한 제어 정책을 생성합니다.
  • Comprehensive evaluation을 풀‑사이즈 휴머노이드 로봇에 적용하여 높이 43 cm–92 cm의 다양한 표면과 여러 실내 장면에서 머그컵, 사과, 장난감 등의 견고한 픽‑앤‑플레이스를 입증했습니다.
  • Open‑source release를 통해 EE 트래커, 비전 어댑터 및 시뮬레이션 환경을 공개하여 커뮤니티 연구를 가속화합니다.

방법론

  1. Vision Front‑End – 대규모 사전학습된 비전‑언어 모델이 RGB‑D 프레임을 처리하여 대상 객체와 그 3D 중심점에 대한 오픈‑보카뷸러리 설명을 생성합니다. 작업별 미세조정이 필요하지 않습니다.

  2. Residual‑Aware EE Tracker

    • Goal Generation: 비전 모듈이 원하는 EE 자세(위치 + 방향)를 출력합니다.
    • Inverse Kinematics (IK) Residual: 고전적인 IK가 로봇의 운동학이 완벽하다고 가정했을 때 목표에 도달할 수 있는 기준 관절 궤적을 계산합니다.
    • Neural Forward Model: 경량 신경망이 기준 궤적으로부터 실제 EE 자세를 예측하여 모델 오차, 컴플라이언스, 센서 노이즈 등을 포착합니다.
    • Goal Adjustment & Replanning: 예측된 자세를 목표와 비교하고, 잔차를 피드백하여 기준 궤적을 조정합니다. 이 과정이 20 Hz로 반복됩니다.
  3. Control Stack – 정제된 관절 명령이 로봇의 저수준 PD 컨트롤러에 전달됩니다. 전체 파이프라인은 단일 GPU 지원 워크스테이션에서 실시간으로 실행됩니다.

  4. Training Regime – 신경 FK 모델과 잔차 정책은 고충실도 물리 시뮬레이터(MuJoCo)에서 도메인 랜덤화(질량, 마찰, 센서 노이즈)를 활용해 완전히 학습되어 시뮬‑실제 격차를 메웁니다.

Results & Findings

측정항목시뮬레이션실제
엔드 이펙터 추적 오차 (cm)1.21.5
픽‑앤‑플레이스 성공률 (다양한 객체)94 %88 %
기존 IK‑only 대비 감소3.2× 낮은 오차2.9× 낮은 오차
보지 못한 객체 카테고리 일반화 (zero‑shot)91 %84 %

핵심 요약

  • 잔차‑인식 트래커는 특히 작은 기구학 오류가 누적되는 높은 표면에서 순수 IK 또는 순수 학습 베이스라인보다 일관되게 우수한 성능을 보입니다.
  • 오픈‑보카뷸러리 인식 덕분에 로봇은 “빨간 머그를 잡아”와 같은 자연어 명령을 객체별 별도 학습 없이 수행할 수 있습니다.
  • 시뮬레이션에서 학습된 정책은 최소한의 성능 저하만으로 실제 환경에 전이되며, 도메인 랜덤화 전략의 효과를 확인시켜 줍니다.

실용적 함의

  • 서비스 로봇의 빠른 프로토타이핑 – 개발자는 이제 휴머노이드 플랫폼에 플러그‑앤‑플레이 인식 모듈과 사전 학습된 EE 트래커를 장착하여 비용이 많이 드는 데이터 수집 캠페인을 건너뛸 수 있습니다.
  • 확장 가능한 배포 – 비전 컴포넌트가 제로‑샷이기 때문에 동일한 시스템을 사무실, 병원, 소매점 등 다양한 시설에 배포해도 지역별 특수 객체를 이해할 수 있습니다.
  • 모듈형 아키텍처 – HERO의 명확한 분리(비전 ↔ 잔차 트래커 ↔ 저수준 컨트롤러)는 기존 로봇 스택(ROS2, Isaac SDK)과 잘 맞아 통합이 간단합니다.
  • 안전성 및 신뢰성 – 폐쇄‑루프 잔차 보정은 과도한 오버슈트와 충돌 위험을 감소시켜 인간 근처에서 작동하는 휴머노이드에게 중요한 요소입니다.
  • 고수준 작업을 위한 기반 – 정확한 EE 제어는 전신 보행, 도구 사용, 협동 조작과 같은 복합적인 자율 행동을 위한 전제 조건이며, 보다 복잡한 자율 행동을 구현할 수 있는 길을 엽니다.

제한 사항 및 향후 작업

  • 하드웨어 의존성 – 현재 구현은 고정밀 조인트 인코더와 신뢰할 수 있는 깊이 센서를 전제로 하며, 저가 플랫폼에서는 성능이 저하될 수 있습니다.
  • 동적 객체 – HERO는 정적 객체에 초점을 맞추고 있으며, 움직이는 목표물(예: 사람에게 컵을 건네는 경우) 처리에는 아직 해결되지 않은 과제가 남아 있습니다.
  • 연산 부하 – 실시간 잔차 계획은 GPU에서 약 20 Hz로 실행되며, 임베디드 배포에서는 모델 프루닝이나 엣지 가속기가 필요할 수 있습니다.
  • 실외/비구조화 지형에 대한 일반화 – 시스템은 실내의 비교적 평탄한 표면에서만 검증되었으며, 울퉁불퉁한 지면으로 확장하려면 전신 균형 제어기를 통합해야 합니다.

저자들이 제시한 향후 방향으로는 잔차 루프에 촉각 피드백을 통합하고, 비전 프론트엔드를 다중모달 언어 명령으로 확장하며, 이 접근법을 이종 인간형 로봇 대규모 플릿에 적용해 평가하는 것이 포함됩니다.

저자

  • Runpei Dong
  • Ziyan Li
  • Xialin He
  • Saurabh Gupta

논문 정보

  • arXiv ID: 2602.16705v1
  • 분류: cs.RO, cs.CV
  • 출판일: 2026년 2월 18일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »