[Paper] 인간형 로봇 엔드 이펙터 제어 학습을 위한 Open-Vocabulary Visual Loco-Manipulation

발행: 3일 전 (2026년 2월 19일 오전 03:55 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2602.16705v1

개요

이 논문은 HERO라는 새로운 프레임워크를 소개한다. 이 프레임워크는 인간형 로봇이 일상 환경에서 시각적 단서만을 사용해 임의의 물체를 집어 옮길 수 있게 한다. 대규모 비전 모델(예: CLIP 스타일의 “오픈‑보카뷸러리” 인식)을 시뮬레이션에서 학습된 고정밀, 학습‑보강형 엔드‑이펙터(EE) 컨트롤러와 결합함으로써, 저자들은 사무실 책상부터 카페 테이블에 이르기까지 다양한 실제 환경에서 신뢰할 수 있는 이동‑조작을 구현한다.

핵심 기여

Residual‑aware EE tracking policy가 클래식 역기구학(IK)과 학습된 전방기구학(FK) 모델을 결합하여 추적 오차를 3.2× 감소시킵니다.
open‑vocabulary vision models(예: CLIP, ALIGN)의 모듈식 통합을 통해 제로‑샷 객체 인식 및 자세 추정을 수행하고, 자연어로 설명 가능한 any 객체의 조작을 가능하게 합니다.
Simulation‑first training pipeline은 광범위한 실제 데이터 수집 없이도 실제 하드웨어에 전이 가능한 제어 정책을 생성합니다.
Comprehensive evaluation을 풀‑사이즈 휴머노이드 로봇에 적용하여 높이 43 cm–92 cm의 다양한 표면과 여러 실내 장면에서 머그컵, 사과, 장난감 등의 견고한 픽‑앤‑플레이스를 입증했습니다.
Open‑source release를 통해 EE 트래커, 비전 어댑터 및 시뮬레이션 환경을 공개하여 커뮤니티 연구를 가속화합니다.

방법론

Vision Front‑End – 대규모 사전학습된 비전‑언어 모델이 RGB‑D 프레임을 처리하여 대상 객체와 그 3D 중심점에 대한 오픈‑보카뷸러리 설명을 생성합니다. 작업별 미세조정이 필요하지 않습니다.
Residual‑Aware EE Tracker
- Goal Generation: 비전 모듈이 원하는 EE 자세(위치 + 방향)를 출력합니다.
- Inverse Kinematics (IK) Residual: 고전적인 IK가 로봇의 운동학이 완벽하다고 가정했을 때 목표에 도달할 수 있는 기준 관절 궤적을 계산합니다.
- Neural Forward Model: 경량 신경망이 기준 궤적으로부터 실제 EE 자세를 예측하여 모델 오차, 컴플라이언스, 센서 노이즈 등을 포착합니다.
- Goal Adjustment & Replanning: 예측된 자세를 목표와 비교하고, 잔차를 피드백하여 기준 궤적을 조정합니다. 이 과정이 20 Hz로 반복됩니다.
Control Stack – 정제된 관절 명령이 로봇의 저수준 PD 컨트롤러에 전달됩니다. 전체 파이프라인은 단일 GPU 지원 워크스테이션에서 실시간으로 실행됩니다.
Training Regime – 신경 FK 모델과 잔차 정책은 고충실도 물리 시뮬레이터(MuJoCo)에서 도메인 랜덤화(질량, 마찰, 센서 노이즈)를 활용해 완전히 학습되어 시뮬‑실제 격차를 메웁니다.

Results & Findings

측정항목	시뮬레이션	실제
엔드 이펙터 추적 오차 (cm)	1.2	1.5
픽‑앤‑플레이스 성공률 (다양한 객체)	94 %	88 %
기존 IK‑only 대비 감소	3.2× 낮은 오차	2.9× 낮은 오차
보지 못한 객체 카테고리 일반화 (zero‑shot)	91 %	84 %

핵심 요약

잔차‑인식 트래커는 특히 작은 기구학 오류가 누적되는 높은 표면에서 순수 IK 또는 순수 학습 베이스라인보다 일관되게 우수한 성능을 보입니다.
오픈‑보카뷸러리 인식 덕분에 로봇은 “빨간 머그를 잡아”와 같은 자연어 명령을 객체별 별도 학습 없이 수행할 수 있습니다.
시뮬레이션에서 학습된 정책은 최소한의 성능 저하만으로 실제 환경에 전이되며, 도메인 랜덤화 전략의 효과를 확인시켜 줍니다.

실용적 함의

서비스 로봇의 빠른 프로토타이핑 – 개발자는 이제 휴머노이드 플랫폼에 플러그‑앤‑플레이 인식 모듈과 사전 학습된 EE 트래커를 장착하여 비용이 많이 드는 데이터 수집 캠페인을 건너뛸 수 있습니다.
확장 가능한 배포 – 비전 컴포넌트가 제로‑샷이기 때문에 동일한 시스템을 사무실, 병원, 소매점 등 다양한 시설에 배포해도 지역별 특수 객체를 이해할 수 있습니다.
모듈형 아키텍처 – HERO의 명확한 분리(비전 ↔ 잔차 트래커 ↔ 저수준 컨트롤러)는 기존 로봇 스택(ROS2, Isaac SDK)과 잘 맞아 통합이 간단합니다.
안전성 및 신뢰성 – 폐쇄‑루프 잔차 보정은 과도한 오버슈트와 충돌 위험을 감소시켜 인간 근처에서 작동하는 휴머노이드에게 중요한 요소입니다.
고수준 작업을 위한 기반 – 정확한 EE 제어는 전신 보행, 도구 사용, 협동 조작과 같은 복합적인 자율 행동을 위한 전제 조건이며, 보다 복잡한 자율 행동을 구현할 수 있는 길을 엽니다.

제한 사항 및 향후 작업

하드웨어 의존성 – 현재 구현은 고정밀 조인트 인코더와 신뢰할 수 있는 깊이 센서를 전제로 하며, 저가 플랫폼에서는 성능이 저하될 수 있습니다.
동적 객체 – HERO는 정적 객체에 초점을 맞추고 있으며, 움직이는 목표물(예: 사람에게 컵을 건네는 경우) 처리에는 아직 해결되지 않은 과제가 남아 있습니다.
연산 부하 – 실시간 잔차 계획은 GPU에서 약 20 Hz로 실행되며, 임베디드 배포에서는 모델 프루닝이나 엣지 가속기가 필요할 수 있습니다.
실외/비구조화 지형에 대한 일반화 – 시스템은 실내의 비교적 평탄한 표면에서만 검증되었으며, 울퉁불퉁한 지면으로 확장하려면 전신 균형 제어기를 통합해야 합니다.

저자들이 제시한 향후 방향으로는 잔차 루프에 촉각 피드백을 통합하고, 비전 프론트엔드를 다중모달 언어 명령으로 확장하며, 이 접근법을 이종 인간형 로봇 대규모 플릿에 적용해 평가하는 것이 포함됩니다.

저자

Runpei Dong
Ziyan Li
Xialin He
Saurabh Gupta

논문 정보

arXiv ID: 2602.16705v1
분류: cs.RO, cs.CV
출판일: 2026년 2월 18일
PDF: PDF 다운로드

[Paper] 인간형 로봇 엔드 이펙터 제어 학습을 위한 Open-Vocabulary Visual Loco-Manipulation

개요

핵심 기여

방법론

Results & Findings

실용적 함의

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] OpenEarthAgent: 툴 기반 지리공간 에이전트를 위한 통합 프레임워크

[Paper] 시각이 언어를 압도할 때: VLAs에서 반사실적 실패 평가 및 완화

[Paper] 블랙-박스 LVLM 공격의 전선을 세밀한 디테일 타깃팅으로 확장

[Paper] IntRec: Intent 기반 Retrieval with Contrastive Refinement