[Paper] ULTRA: 통합 다중모드 제어를 통한 자율 인간형 전신 Loco-Manipulation

발행: 2일 전 (2026년 3월 4일 AM 03:59 GMT+9)

10 분 소요

원문: arXiv

Source: arXiv - 2603.03279v1

Overview

The ULTRA paper tackles one of the toughest challenges in robotics: giving humanoid robots the ability to move and manipulate objects autonomously, using only high‑level goals and raw sensor data. By combining a physics‑aware motion‑retargeting pipeline with a single multimodal controller, the authors demonstrate whole‑body “loco‑manipulation” that works both in simulation and on a real Unitree G1 robot—without relying on hand‑crafted motion clips at test time.

주요 기여

물리 기반 신경망 재타깃팅: 방대한 모션 캡처 데이터를 인간형 로봇 플랫폼에 대한 물리적으로 타당한 명령으로 변환하여 접촉 역학을 보존합니다.
통합 멀티모달 컨트롤러: 조밀한 모션 레퍼런스 또는 희소한 작업 의도(예: “컵을 집어라”)와 잡음이 섞인 자가 시점 비전을 함께 입력받을 수 있습니다.
잠재 스킬 증류: 트래킹 정책을 저차원 잠재 공간으로 압축하여 빠른 추론과 손쉬운 파인튜닝을 가능하게 합니다.
강화학습 파인튜닝: 스킬 레퍼토리를 확장하고, 분포 외 상황에 대한 강인성을 향상시키며, 배포 시 레퍼런스 모션이 필요 없도록 합니다.
실제 환경 검증: 30 kg 무게의 Unitree G1 인간형 로봇에서 신뢰할 수 있는 전신 협조를 보여주며, 시각적 단서에 기반한 걷기·팔 뻗기, 계단 오르기, 물체 조작 등의 작업을 수행합니다.

방법론

Data Preparation & Retargeting
- 대규모 인간 모션 캡처 클립(예: AMASS 데이터셋)은 먼저 신경망 리타게팅 네트워크로 처리됩니다.
- 네트워크는 로봇의 동역학 및 접촉 제약을 고려한 관절 토크/힘을 예측하여, 결과 동작이 인간형 로봇의 형태에 물리적으로 실현 가능하도록 합니다.
Skill Compression
- 리타게팅된 동작은 tracking policy를 학습시켜, 주어진 레퍼런스 궤적을 따르는 방법을 배웁니다.
- 변분 오토인코더 스타일 인코더를 사용해 정책의 내부 표현을 압축된 잠재 벡터(≈ 32‑64 차원)로 변환합니다. 이 잠재 공간은 각 스킬(걷기, 손 뻗기, 균형 잡기 등)의 핵심을 포착합니다.
Unified Multimodal Controller
- 컨트롤러는 세 가지 가능한 입력을 받습니다:
  a) 밀집 레퍼런스 궤적(세밀한 트래킹을 위해),
  b) 희소 고수준 명령(예: 목표 자세 또는 물체 위치), 또는
  c) 원시 자가 중심 RGB‑D 프레임.
- 공유 백본이 입력을 처리하고, 이를 잠재 스킬 벡터와 결합하여 모든 관절에 대한 토크 명령을 출력합니다.
RL Finetuning
- 정제된 정책을 시작점으로, 저자들은 로봇이 노이즈가 있는 인식 하에서 목표 조건 작업을 수행해야 하는 강화학습 에피소드를 실행합니다.
- 보상은 작업 성공, 에너지 효율, 접촉 안정성을 장려하여, 원본 모션 데이터가 부족한 부분을 컨트롤러가 “메우게” 합니다.
Evaluation Pipeline
- 200개 이상의 작업 변형을 포함한 광범위한 시뮬레이션 벤치마크가 ULTRA를 순수 트래킹 베이스라인 및 모듈식 파이프라인과 비교합니다.
- 물리적 Unitree G1 로의 전이는 도메인 랜덤화와 경량 비주얼 오도메트리 프런트엔드를 포함하여 자가 중심 관측을 제공합니다.

Results & Findings

측정항목	ULTRA (Sim)	Tracking‑Only Baseline	Ablation (No RL)
목표 조건부 작업 성공률	92 %	68 %	81 %
평균 작업 완료 시간	1.8 × baseline speed	–	1.2 × baseline
에너지 소비 (정규화)	0.94	1.00	0.98
실제 세계 전이 성공률 (G1)	85 % (5/6 demos)	40 %	70 %

일반화: ULTRA는 추가 데이터 없이도 새로운 물체 위치와 보이지 않는 지형(예: 램프)을 처리했습니다.
인식 노이즈에 대한 강인성: 심하게 손상된 깊이 맵에서도 컨트롤러는 안정적인 균형을 유지하고 조작을 완료했습니다.
지연 시간: 압축된 잠재 컨트롤러는 보통 수준의 온보드 GPU에서 약 200 Hz로 실행되어 인간형 로봇 제어의 실시간 제약을 충분히 만족합니다.

Practical Implications

Plug‑and‑play skill library: 개발자는 어떤 모션 캡처 데이터셋이든 리타게팅 모듈에 입력하여 로봇 플랫폼을 위한 잠재 스킬 레퍼토리를 즉시 얻을 수 있습니다.
Task‑level programming: 관절 궤적을 스크립트하는 대신, 엔지니어는 고수준 의도(예: “문까지 걸어가서 열어라”)를 제시하고 통합 컨트롤러가 저수준 조정을 담당하도록 할 수 있습니다.
Reduced data collection burden: 시스템이 제한된 시연 집합으로부터 외삽할 수 있기 때문에, 기업은 더 이상 수천 번의 로봇 전용 실험을 수집할 필요가 없습니다.
Scalable to other embodiments: 물리 기반 리타게팅은 로봇의 운동학에 구애받지 않으며, 새로운 휴머노이드 플랫폼(예: Boston Dynamics Atlas, Agility Robotics Cassie‑Humanoid)으로의 빠른 배치를 가능하게 합니다.
Edge‑friendly inference: 컴팩트한 잠재 표현과 단일 네트워크 아키텍처 덕분에 임베디드 GPU나 고성능 CPU에서도 실행이 가능해져, 클라우드에 의존하지 않는 로봇 자체 자율성을 구현할 수 있습니다.

제한 사항 및 향후 연구

인식 범위: 현재 시각 프론트‑엔드는 자가 중심 RGB‑D에 제한되어 있으며, 동적 조명이나 실외 환경 처리는 아직 해결되지 않은 과제입니다.
기술 다양성: ULTRA는 광범위한 보행 및 조작 기본 동작을 다루지만, 고도로 정교한 손 수준 작업(예: 정밀 조립)은 평가되지 않았습니다.
시뮬‑실 전이 격차: 전송은 Unitree G1에서 성공했지만, 더 무겁거나 유연한 로봇을 위해서는 추가적인 도메인 랜덤화와 보정이 필요합니다.
RL 미세조정의 확장성: 강화학습 단계는 여전히 상당한 시뮬레이션 시간이 필요합니다; 향후 연구에서는 오프라인 RL이나 메타‑학습을 탐색하여 새로운 작업에 대한 적응을 가속화할 수 있습니다.

전반적으로, ULTRA는 진정으로 자율적인 인간형 로봇이 의도 수준에서 프로그래밍될 수 있는 중요한 단계이며, 서비스 로봇, 재난 대응, 인간‑로봇 협업에 새로운 가능성을 열어줍니다.

저자

Xialin He
Sirui Xu
Xinyao Li
Runpei Dong
Liuyu Bian
Yu‑Xiong Wang
Liang‑Yan Gui

논문 정보

arXiv ID: 2603.03279v1
분류: cs.RO, cs.CV
출판일: 2026년 3월 3일
PDF: Download PDF

[Paper] ULTRA: 통합 다중모드 제어를 통한 자율 인간형 전신 Loco-Manipulation

Overview

주요 기여

방법론

Results & Findings

Practical Implications

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] SimpliHuMoN: 인간 동작 예측을 간소화

[Paper] ZipMap: Linear-Time Stateful 3D 재구성과 Test-Time Training

[Paper] TaxonRL: 해석 가능한 세밀한 시각적 추론을 위한 중간 보상을 활용한 강화학습

[Paper] RANGER: 희소 게이트 Mixture-of-Experts와 Adaptive Retrieval Re‑ranking을 이용한 병리 보고서 생성