[Paper] 협조된 휴머노이드 매니퓰레이션과 선택 정책

발행: (2026년 1월 1일 오전 03:59 GMT+9)
9 min read
원문: arXiv

Source: arXiv - 2512.25072v1

개요

이 논문은 인간형 로봇이 설거지기계에 설거지를 넣거나 화이트보드를 닦는 등 복잡한 전신 작업을 수행하도록 하는 새로운 시스템을 소개합니다. 직관적인 원격 조작 인터페이스와 Choice Policy라는 새로운 모방 학습 알고리즘을 결합합니다. 로봇 제어를 모듈식 하위 작업으로 분해하고 고품질 인간 시연으로부터 학습함으로써, 저자들은 실제 세계의 비구조화된 환경에서 로봇의 머리, 손, 다리 전반에 걸친 신뢰할 수 있는 협조를 달성합니다.

주요 기여

  • 모듈식 텔레오퍼레이션 프레임워크: 인간형 로봇 제어를 손‑눈 협응, 잡기 기본 동작, 팔 추적, 이동으로 분해하여 빠르고 확장 가능한 데이터 수집을 가능하게 함.
  • Choice Policy: 여러 후보 행동을 생성하고 점수를 매겨 최적의 행동을 선택하는 모방 학습 아키텍처로, 다중 모달 행동을 효율적으로 처리함.
  • 두 가지 도전적인 실제 작업에 대한 실증적 검증 (식기세척기 적재 및 화이트보드 닦기를 위한 전신 로코‑매니퓰레이션)에서 확산 기반 정책 및 기본 행동 복제보다 우수한 성능을 입증함.
  • 손‑눈 협응에 대한 통찰력 있는 분석, 인간형 로봇의 장기 조작 작업에서 핵심적인 역할을 보여줌.
  • 오픈소스 준비 파이프라인, 최소한의 엔지니어링 노력으로 다른 인간형 로봇 플랫폼 및 작업군에 적용 가능함.

방법론

  1. Tele‑operation data collection – 로봇은 직관적인 인터페이스 세트를 통해 제어됩니다: 머리 방향을 위한 VR 헤드셋, 각 손을 위한 6‑DOF 컨트롤러, 그리고 이동을 위한 풋패드. 운영자는 하위 작업(예: “컵 잡기”, “앞으로 걸음”)을 수행하면서 시스템은 동기화된 센서 데이터와 로봇 관절 상태를 기록합니다.
  2. Modular decomposition – 각 하위 작업을 자체 관찰/행동 공간을 가진 별개의 “스킬”로 취급하여, 깔끔한 시연을 포착하고 작업 간 스킬을 재사용하기 쉽게 합니다.
  3. Choice Policy architecture
    • Candidate generator: 경량 신경망이 현재 관찰을 기반으로 가능한 다음 행동의 작은 집합(예: 5‑10개)을 예측합니다.
    • Scoring network: 두 번째 네트워크가 학습된 가치 함수를 사용해 각 후보를 평가하며, 행동이 시연된 행동과 얼마나 잘 일치하는지를 반영합니다.
    • Selection: 가장 높은 점수를 받은 후보가 실행되어 빠른 추론(≈ 10 ms)을 가능하게 하면서도 다중 모달 옵션(예: 다양한 잡는 방식)을 표현할 수 있습니다.
  4. Training – 시스템은 수집된 시연 데이터를 이용한 감독 학습 모방 학습으로 훈련되며, 생성된 후보들 간의 다양성을 장려하는 보조 손실을 포함합니다.

결과 및 발견

작업지표 (성공률)Choice PolicyDiffusion PolicyBehavior Cloning
식기세척기 적재성공률92 %78 %65 %
화이트보드 닦기 (전신)성공률88 %71 %60 %
  • 높은 성공률: Choice Policy는 두 작업 모두에서 확산 기반 정책 및 표준 행동 클로닝보다 일관되게 우수했습니다.
  • 속도: Choice Policy의 의사결정당 추론 시간은 약 10 ms였으며, 확산 모델은 120 ms였으므로 실시간 제어가 더 원활합니다.
  • 손‑눈 협응 제거 실험: 전용 손‑눈 모듈을 제거하면 식기세척기 작업에서 성공률이 약 20 % 감소하여 그 중요성을 확인했습니다.
  • 교란에 대한 강인성: 정책은 전체 궤적을 재초기화하지 않고도 작은 밀림이나 예상치 못한 물체 배치로부터 회복할 수 있었습니다.

실용적 시사점

  • 확장 가능한 데이터 파이프라인: 모듈식 텔레오퍼레이션 설정은 모든 휴머노이드 플랫폼에서 대규모 고품질 데이터셋을 수집하는 장벽을 낮추어 연구와 제품 개발을 가속화합니다.
  • 실시간 배포: Choice Policy의 빠른 추론은 현재 연산 제한이 있는 휴머노이드에서 온보드 실행이 가능하도록 하여 가정, 병원, 사무실 등 서비스 로봇 응용 분야의 문을 엽니다.
  • 다중모달 의사결정: 여러 행동을 명시적으로 생성하고 점수화함으로써 개발자는 안전 검사나 선호 휴리스틱(예: 에너지 효율성, 충돌 방지)을 점수 네트워크에 삽입할 수 있습니다.
  • 전이 가능성: 기술이 모듈식이기 때문에 재사용 가능한 기본 동작(잡기, 걸음, 머리 회전) 라이브러리를 새로운 작업에 조합할 수 있어 작업별 재학습 필요성을 줄입니다.
  • 전신 협조 벤치마크: 논문의 실험 설정(식기세척기, 화이트보드)은 산업 팀이 자체 휴머노이드 컨트롤러를 평가하기 위해 채택할 수 있는 구체적인 벤치마크를 제공합니다.

제한 사항 및 향후 작업

  • Demonstration dependence: 시스템은 여전히 고품질 텔레‑오퍼레이션 데모의 상당한 집합에 의존합니다; 매우 다양한 작업으로 확장하려면 데이터 수집 자동화가 추가로 필요할 수 있습니다.
  • Limited perception: 현재 파이프라인은 비교적 단순한 시각 입력(RGB‑D)만을 사용하며, 고급 장면 이해(예: semantic segmentation)를 포함하지 않아 복잡한 환경에서의 견고성을 향상시킬 수 있습니다.
  • Generalization across robot morphologies: 실험은 단일 휴머노이드 플랫폼에서 수행되었으며, 다른 운동학을 가진 로봇에 접근 방식을 적용하려면 추가적인 보정이 필요할 수 있습니다.
  • Future directions suggested by the authors include integrating self‑supervised perception modules, exploring hierarchical Choice Policies for longer‑horizon planning, and extending the framework to collaborative multi‑robot scenarios.

저자

  • Haozhi Qi
  • Yen-Jen Wang
  • Toru Lin
  • Brent Yi
  • Yi Ma
  • Koushil Sreenath
  • Jitendra Malik

논문 정보

  • arXiv ID: 2512.25072v1
  • 분류: cs.RO, cs.AI, cs.LG
  • 출판일: 2025년 12월 31일
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »