[Paper] 야생에서의 하이킹: 휴머노이드를 위한 확장 가능한 지각 파쿠르 프레임워크

발행: (2026년 1월 13일 오전 01:50 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2601.07718v1

Overview

이 논문은 “Hiking in the Wild” 라는 새로운 엔드‑투‑엔드 강화학습(RL) 프레임워크를 소개한다. 이 프레임워크는 전체 크기의 인간형 로봇이 외부 상태 추정기(예: SLAM)에 의존하지 않고도 울퉁불퉁하고 구조화되지 않은 지형을 탐험할 수 있게 한다. 원시 깊이 이미지와 관절 수준의 고유감각 데이터를 직접 단일 단계 정책 네트워크에 입력함으로써, 시스템은 2.5 m/s까지 걸을 수 있으며 가장자리에서의 치명적인 미끄러짐을 방지한다. 이러한 능력은 인간형 파쿠르를 실제 환경에 배치하는 데 한 걸음 더 다가가게 한다.

주요 기여

  • 확장 가능한 인지 파쿠르 파이프라인: 원시 깊이 + 고유감각 → 관절 토크를 단일 RL 패스로 매핑합니다.
  • 착지 안전 메커니즘: Terrain Edge DetectionFoot Volume Points를 결합하여 위험한 착지를 자동으로 거부하고 미끄러짐을 방지합니다.
  • Flat‑Patch Sampling 전략: 훈련 중 현실적인 네비게이션 목표를 생성하여 보상 해킹을 없애고 정책의 견고성을 향상시킵니다.
  • 외부 상태 추정 없음: 정책이 온보드 센서만으로 작동하여 LiDAR 기반 매핑에서 흔히 발생하는 드리프트 문제를 회피합니다.
  • 오픈소스 학습 및 배포 코드: 재현 가능한 연구와 다른 휴머노이드 플랫폼으로의 빠른 전이를 가능하게 합니다.

방법론

  1. 센서 입력 – 로봇은 전방을 향한 깊이 맵(≈ 640×480)과 관절 위치/속도 벡터를 스트리밍합니다. 전역 자세나 지도는 사용되지 않습니다.
  2. 신경 정책 아키텍처 – 경량 CNN이 깊이 이미지에서 지형 기하학을 추출하고, 별도의 MLP가 고유 감각을 처리합니다. 두 임베딩을 연결한 뒤 최종 MLP에 입력하여 원하는 관절 토크를 출력합니다.
  3. 안전 레이어 – 토크 명령을 실행하기 전에 Terrain Edge Detector (깊이 맵에 대한 빠른 엣지 필터)가 잠재적인 낙하 구역을 식별합니다. Foot Volume Points (미리 계산된 안전한 발 위치 볼륨)를 교차 검증하여, 제안된 착지점이 안전 볼륨 밖에 있으면 명령을 대체 자세로 클리핑합니다.
  4. 학습 루프 – 단일 단계 강화학습 알고리즘(PPO)이 절차적으로 생성된 지형이 배치된 고충실도 물리 시뮬레이터에서 실행됩니다. Flat‑Patch Sampling 모듈은 지역적으로 평탄한 영역에서만 목표 착지점을 샘플링하여 보상 함수가 시뮬레이션의 결함을 이용하기보다 실현 가능한 탐색을 반영하도록 합니다.
  5. 도메인 랜덤화 – 시뮬‑실 차이를 메우기 위해 시각 노이즈, 센서 지연, 액추에이터 동역학을 무작위화합니다.

결과 및 발견

MetricSimulationReal‑world (full‑size humanoid)
불균형 지형에서 최대 속도2.8 m/s2.5 m/s
30 m 장애물 코스 성공률96 %92 %
100 m당 평균 미끄럼 사고0.30.4
정책 지연 (센서 → 토크)12 ms15 ms
  • 안전 레이어는 기본 RL 정책에 비해 가장자리 관련 낙상을 ≈ 85 % 감소시켰다.
  • Flat‑Patch Sampling은 보상 해킹 행동(예: 시뮬레이터 물리를 이용한 “점프‑앤‑랜드” 트릭)을 제거하고 보이지 않는 지형 유형에 대한 일반화를 향상시켰다.
  • 현장 테스트에서 바위 경사면, 느슨한 자갈, 좁은 돌출부 등에서 안정적인 보행을 입증했으며, 이러한 조건은 일반적으로 매핑 기반 컨트롤러를 무너뜨린다.

실용적 시사점

  • Robotics developers는 이제 전체 SLAM 스택을 구축하지 않고도 견고한 인간형 로봇 내비게이션을 프로토타이핑할 수 있어 개발 시간과 하드웨어 비용을 절감할 수 있습니다.
  • 안전 메커니즘은 modular이며, 가장자리 인식이 필요한 사족보행 로봇이나 휠 로봇의 기존 RL 정책에 그대로 적용할 수 있습니다.
  • Industry use‑cases로는 재난 현장 점검, 야외 배달, 건설 현장 지원 등이 있으며, 로봇이 예측 불가능한 지면 위를 빠르게 (≈ 2.5 m/s) 이동할 수 있기 때문에 보다 실현 가능해집니다.
  • 오픈‑source 코드와 single‑stage 아키텍처 덕분에 최소한의 센서 변경만으로도 이 접근 방식을 다른 플랫폼(예: Boston Dynamics Atlas, NASA Valkyrie)으로 port하기가 쉽습니다.

제한 사항 및 향후 연구

  • 현재 시스템은 전방을 향한 깊이 센서를 가정합니다; 진정한 전방위 내비게이션을 위해서는 측면 보기 또는 360° 인식이 필요합니다.
  • 도메인 랜덤화가 시뮬‑실제 차이를 완화하지만, 극한 기상 조건(폭우, 눈)은 평가되지 않았습니다.
  • 정책은 여전히 밀집 깊이 데이터에 의존하는데, 이는 저전력 로봇에 대해 대역폭 부담이 클 수 있습니다; 향후 연구에서는 희소 LiDAR 또는 이벤트 카메라 입력을 탐색할 수 있습니다.
  • 프레임워크를 다중 로봇 협업이나 동적 장애물(예: 움직이는 인간)으로 확장하는 것은 아직 열린 연구 과제입니다.

저자

  • Shaoting Zhu
  • Ziwen Zhuang
  • Mengjie Zhao
  • Kun‑Ying Lee
  • Hang Zhao

논문 정보

  • arXiv ID: 2601.07718v1
  • 분류: cs.RO, cs.AI
  • 출판일: 2026년 1월 12일
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »

[Paper] Gemini용 프로덕션 준비 프로브 구축

최첨단 language model 능력이 빠르게 향상되고 있습니다. 따라서 점점 더 강력해지는 시스템을 악용하는 악의적인 행위자들에 대한 보다 강력한 mitigations가 필요합니다. Prior w...