[Paper] 야생에서의 하이킹: 휴머노이드를 위한 확장 가능한 지각 파쿠르 프레임워크
발행: (2026년 1월 13일 오전 01:50 GMT+9)
8 min read
원문: arXiv
Source: arXiv - 2601.07718v1
Overview
이 논문은 “Hiking in the Wild” 라는 새로운 엔드‑투‑엔드 강화학습(RL) 프레임워크를 소개한다. 이 프레임워크는 전체 크기의 인간형 로봇이 외부 상태 추정기(예: SLAM)에 의존하지 않고도 울퉁불퉁하고 구조화되지 않은 지형을 탐험할 수 있게 한다. 원시 깊이 이미지와 관절 수준의 고유감각 데이터를 직접 단일 단계 정책 네트워크에 입력함으로써, 시스템은 2.5 m/s까지 걸을 수 있으며 가장자리에서의 치명적인 미끄러짐을 방지한다. 이러한 능력은 인간형 파쿠르를 실제 환경에 배치하는 데 한 걸음 더 다가가게 한다.
주요 기여
- 확장 가능한 인지 파쿠르 파이프라인: 원시 깊이 + 고유감각 → 관절 토크를 단일 RL 패스로 매핑합니다.
- 착지 안전 메커니즘: Terrain Edge Detection과 Foot Volume Points를 결합하여 위험한 착지를 자동으로 거부하고 미끄러짐을 방지합니다.
- Flat‑Patch Sampling 전략: 훈련 중 현실적인 네비게이션 목표를 생성하여 보상 해킹을 없애고 정책의 견고성을 향상시킵니다.
- 외부 상태 추정 없음: 정책이 온보드 센서만으로 작동하여 LiDAR 기반 매핑에서 흔히 발생하는 드리프트 문제를 회피합니다.
- 오픈소스 학습 및 배포 코드: 재현 가능한 연구와 다른 휴머노이드 플랫폼으로의 빠른 전이를 가능하게 합니다.
방법론
- 센서 입력 – 로봇은 전방을 향한 깊이 맵(≈ 640×480)과 관절 위치/속도 벡터를 스트리밍합니다. 전역 자세나 지도는 사용되지 않습니다.
- 신경 정책 아키텍처 – 경량 CNN이 깊이 이미지에서 지형 기하학을 추출하고, 별도의 MLP가 고유 감각을 처리합니다. 두 임베딩을 연결한 뒤 최종 MLP에 입력하여 원하는 관절 토크를 출력합니다.
- 안전 레이어 – 토크 명령을 실행하기 전에 Terrain Edge Detector (깊이 맵에 대한 빠른 엣지 필터)가 잠재적인 낙하 구역을 식별합니다. Foot Volume Points (미리 계산된 안전한 발 위치 볼륨)를 교차 검증하여, 제안된 착지점이 안전 볼륨 밖에 있으면 명령을 대체 자세로 클리핑합니다.
- 학습 루프 – 단일 단계 강화학습 알고리즘(PPO)이 절차적으로 생성된 지형이 배치된 고충실도 물리 시뮬레이터에서 실행됩니다. Flat‑Patch Sampling 모듈은 지역적으로 평탄한 영역에서만 목표 착지점을 샘플링하여 보상 함수가 시뮬레이션의 결함을 이용하기보다 실현 가능한 탐색을 반영하도록 합니다.
- 도메인 랜덤화 – 시뮬‑실 차이를 메우기 위해 시각 노이즈, 센서 지연, 액추에이터 동역학을 무작위화합니다.
결과 및 발견
| Metric | Simulation | Real‑world (full‑size humanoid) |
|---|---|---|
| 불균형 지형에서 최대 속도 | 2.8 m/s | 2.5 m/s |
| 30 m 장애물 코스 성공률 | 96 % | 92 % |
| 100 m당 평균 미끄럼 사고 | 0.3 | 0.4 |
| 정책 지연 (센서 → 토크) | 12 ms | 15 ms |
- 안전 레이어는 기본 RL 정책에 비해 가장자리 관련 낙상을 ≈ 85 % 감소시켰다.
- Flat‑Patch Sampling은 보상 해킹 행동(예: 시뮬레이터 물리를 이용한 “점프‑앤‑랜드” 트릭)을 제거하고 보이지 않는 지형 유형에 대한 일반화를 향상시켰다.
- 현장 테스트에서 바위 경사면, 느슨한 자갈, 좁은 돌출부 등에서 안정적인 보행을 입증했으며, 이러한 조건은 일반적으로 매핑 기반 컨트롤러를 무너뜨린다.
실용적 시사점
- Robotics developers는 이제 전체 SLAM 스택을 구축하지 않고도 견고한 인간형 로봇 내비게이션을 프로토타이핑할 수 있어 개발 시간과 하드웨어 비용을 절감할 수 있습니다.
- 안전 메커니즘은 modular이며, 가장자리 인식이 필요한 사족보행 로봇이나 휠 로봇의 기존 RL 정책에 그대로 적용할 수 있습니다.
- Industry use‑cases로는 재난 현장 점검, 야외 배달, 건설 현장 지원 등이 있으며, 로봇이 예측 불가능한 지면 위를 빠르게 (≈ 2.5 m/s) 이동할 수 있기 때문에 보다 실현 가능해집니다.
- 오픈‑source 코드와 single‑stage 아키텍처 덕분에 최소한의 센서 변경만으로도 이 접근 방식을 다른 플랫폼(예: Boston Dynamics Atlas, NASA Valkyrie)으로 port하기가 쉽습니다.
제한 사항 및 향후 연구
- 현재 시스템은 전방을 향한 깊이 센서를 가정합니다; 진정한 전방위 내비게이션을 위해서는 측면 보기 또는 360° 인식이 필요합니다.
- 도메인 랜덤화가 시뮬‑실제 차이를 완화하지만, 극한 기상 조건(폭우, 눈)은 평가되지 않았습니다.
- 정책은 여전히 밀집 깊이 데이터에 의존하는데, 이는 저전력 로봇에 대해 대역폭 부담이 클 수 있습니다; 향후 연구에서는 희소 LiDAR 또는 이벤트 카메라 입력을 탐색할 수 있습니다.
- 프레임워크를 다중 로봇 협업이나 동적 장애물(예: 움직이는 인간)으로 확장하는 것은 아직 열린 연구 과제입니다.
저자
- Shaoting Zhu
- Ziwen Zhuang
- Mengjie Zhao
- Kun‑Ying Lee
- Hang Zhao
논문 정보
- arXiv ID: 2601.07718v1
- 분류: cs.RO, cs.AI
- 출판일: 2026년 1월 12일
- PDF: Download PDF