[Paper] 계층적 계획과 Latent World Models
발행: (2026년 4월 4일 AM 02:32 GMT+9)
9 분 소요
원문: arXiv
Source: arXiv - 2604.03208v1
개요
이 논문은 모델 기반 강화학습의 핵심 병목 현상을 해결한다: 학습된 세계 모델을 장기, 제로샷 로봇 작업에 어떻게 활용할 수 있는가. 여러 시간 해상도에서 잠재 동역학을 학습하고 이를 계층적으로 계획함으로써, 저자들은 실제 환경의 픽‑앤‑플레이스와 다양한 시뮬레이션 조작 및 내비게이션 문제에서 신뢰할 수 있는 제어를 유지하면서도 계획 연산량을 크게 줄였다.
주요 기여
- 다중 스케일 잠재 세계 모델: 짧은, 중간, 긴 시간 단계에 대해 별개의 잠재 역학을 학습하는 프레임워크를 소개하며, 각각은 환경을 다른 시간적 입체성으로 포착합니다.
- 계층적 계획 알고리즘: 거친 수준의 계획(장기 목표)과 세밀한 수준의 정제(단기 행동)를 결합하여 모델 예측 제어(MPC)의 지수적 탐색 공간을 감소시킵니다.
- 모듈식 추상화: 이 계층 구조는 잠재 세계 모델 아키텍처(예: latent‑ODE, RSSM) 위에 놓여 기존 모델 기반 파이프라인에 쉽게 연결할 수 있습니다.
- 제로샷 실제 검증: 최종 목표 설명만을 사용하여 실제 로봇 픽‑앤‑플레이스 작업에서 70 % 성공률을 보여주며, 단일 수준 모델은 완전히 실패합니다.
- 효율성 향상: 시뮬레이션된 푸시‑조작 및 미로‑네비게이션 벤치마크에서 최대 4× 낮은 계획 연산을 달성하면서 성공률을 향상시킵니다.
방법론
-
다중 잠재 역학 학습
- 에이전트는 세 개(또는 그 이상)의 잠재 모델을 학습하며, 각 모델은 서로 다른 환경 단계 수(예: 1‑스텝, 5‑스텝, 20‑스텝) 후의 다음 잠재 상태를 예측합니다.
- 모든 모델은 동일한 인코더/디코더를 공유하지만 전이 네트워크는 별도로 두어, 각각이 단기 물리 현상과 장기 추세에 특화될 수 있게 합니다.
-
계층형 MPC
- 고수준 플래너: 거친 스케일 모델을 사용해 시스템을 목표 방향으로 대략 이동시키는 짧은 “매크로 액션” 시퀀스를 생성합니다. 각 매크로 액션이 많은 타임스텝을 차지하므로 탐색 트리가 얕습니다.
- 중간 수준 정제: 각 매크로 액션을 소수의 중간 스케일 액션으로 분해하고, 중간 스케일 모델을 사용해 실행 가능성을 확인합니다.
- 저수준 컨트롤러: 마지막으로, 세밀한 스케일의 MPC가 몇 단계에 걸쳐 실행되어 로봇 동역학을 고려한 구체적인 모터 명령을 생성합니다.
- 계층 구조는 온라인으로 실행됩니다: 고수준 계획은 로봇이 크게 벗어났을 때만 재계산되고, 저수준 컨트롤러는 전체 주기로 실행됩니다.
-
목표 지정
- 시스템은 최종 잠재 목표만 받습니다(예: “물체가 목표 통에 있어야 함”). 중간 경유지는 필요 없으며, 이는 새로운 장면으로의 제로샷 전이에서 핵심적입니다.
결과 및 발견
| 환경 | 성공 (계층적) | 성공 (단일 수준) | 계획 계산 (× 속도 향상) |
|---|---|---|---|
| 실제 세계 픽‑앤‑플레이스 (목표만) | 70 % | 0 % | – |
| 시뮬레이션 푸시‑조작 | 85 % | 62 % | 4× faster |
| 미로 탐색 (밀집 장애물) | 78 % | 54 % | 3.5× faster |
- Error mitigation: 거친 모델의 장기 예측은 많은 1‑스텝 예측을 연쇄하는 대신 더 큰 간격을 직접 예측하도록 학습되기 때문에 누적 오류에 덜 민감합니다.
- Search space reduction: 매크로‑액션으로 계획함으로써, 단계당 수십 개의 액션에서 매크로‑액션 몇 개로 분기 인자를 감소시켜 트리 깊이를 크게 줄입니다.
- Zero‑shot transfer: 계층 구조는 새로운 로봇 설정에서 미세 조정 없이 바로 작동하여, 이 접근법이 다양한 도메인에 일반화된다는 주장을 확인합니다.
Practical Implications
- Robotics pipelines: 개발자는 기존 모델 기반 컨트롤러에 가벼운 계층형 래퍼를 추가하여 기본 세계 모델을 재설계하지 않고도 더 긴 계획 수평선을 확보할 수 있습니다.
- Edge deployment: 감소된 연산량(최대 4배 빠름)으로 실시간 MPC를 임베디드 하드웨어(예: Jetson, Raspberry Pi)에서 구현할 수 있어 창고 피킹이나 자율 검사와 같은 작업에 적용할 수 있습니다.
- Rapid prototyping: 최종 목표만 있으면 되므로 엔지니어는 웨이포인트 시퀀스를 직접 설계하는 대신 목표 상태를 지정하여 새로운 작업을 프로토타이핑할 수 있어 반복 주기가 가속됩니다.
- Safety & reliability: 거친 수준의 플래너가 초기 단계에서 안전 제약(예: 장애물과 일정 거리 유지)을 포함할 수 있고, 세밀한 수준의 컨트롤러가 동역학을 담당함으로써 보다 해석 가능하고 검증 가능한 행동을 제공합니다.
제한 사항 및 향후 연구
- 계층 깊이의 확장성: 논문에서는 세 가지 시간 스케일을 실험했으며, 레벨을 추가하면 수익이 감소하고 훈련이 복잡해질 수 있습니다.
- 모델 편향: 각 잠재 모델이 독립적으로 훈련되므로 스케일 간 불일치가 최적이 아닌 정제로 이어질 수 있습니다. 공동 훈련이나 일관성 정규화는 아직 탐구가 필요한 방향입니다.
- 작업 다양성: 평가가 조작 및 내비게이션에 초점을 맞추고 있어, 다리 보행이나 공중 드론과 같은 고차원 작업으로 확장하는 것은 아직 탐구되지 않았습니다.
- 계층 학습: 현재 시간 granularity는 수동으로 선택됩니다. 향후 연구에서는 최적의 시간 단계 구분을 학습하거나 작업 난이도에 따라 온라인으로 조정할 수 있습니다.
저자
- Wancong Zhang
- Basile Terver
- Artem Zholus
- Soham Chitnis
- Harsh Sutaria
- Mido Assran
- Randall Balestriero
- Amir Bar
- Adrien Bardes
- Yann LeCun
- Nicolas Ballas
논문 정보
- arXiv ID: 2604.03208v1
- 카테고리: cs.LG
- 발행일: 2026년 4월 3일
- PDF: Download PDF