[Paper] 잠재 세계 모델을 이용한 계층적 계획

발행: (2026년 4월 4일 오전 02:32 GMT+9)
9 분 소요
원문: arXiv

Source: arXiv - 2604.03208v1

개요

이 논문은 모델 기반 강화 학습의 핵심 병목 현상을 해결한다: 학습된 세계 모델을 장기, 제로샷 로봇 작업에 어떻게 활용할 수 있는가. 여러 시간 해상도에서 잠재 역학을 학습하고 이를 계층적으로 계획함으로써, 저자들은 계획 연산량을 크게 줄이면서도 실제 환경의 픽‑앤‑플레이스와 다양한 시뮬레이션 조작 및 내비게이션 문제에서 신뢰할 수 있는 제어를 달성한다.

Key Contributions

  • 다중 스케일 잠재 세계 모델: 짧은, 중간, 긴 시간 단계에 대해 별개의 잠재 동역학을 학습하는 프레임워크를 도입하며, 각각은 환경을 다른 시간적 세분성으로 포착한다.
  • 계층적 계획 알고리즘: 거친 수준의 계획(장기 목표)과 세밀한 수준의 정제(단기 행동)를 결합하여 모델 예측 제어(MPC)의 지수적 탐색 공간을 감소시킨다.
  • 모듈식 추상화: 계층 구조는 잠재 세계 모델 아키텍처(예: latent‑ODE, RSSM) 위에 위치하여 기존 모델 기반 파이프라인에 쉽게 연결할 수 있다.
  • 제로샷 실세계 검증: 최종 목표 설명만을 사용하여 실제 로봇 픽‑앤‑플레이스 작업에서 70 % 성공률을 보여주며, 단일 레벨 모델은 완전히 실패한다.
  • 효율성 향상: 시뮬레이션된 푸시‑조작 및 미로‑탐색 벤치마크에서 최대 4× 낮은 계획 연산을 보여주면서 성공률도 향상시킨다.

방법론

  1. 다중 잠재 역학 학습

    • 에이전트는 세 개(또는 그 이상)의 잠재 모델을 학습하며, 각각은 환경 단계 수가 다른(예: 1‑step, 5‑step, 20‑step) 후의 다음 잠재 상태를 예측한다.
    • 모든 모델은 동일한 encoder/decoder를 공유하지만 전이 네트워크는 별도로 두어, 각 모델이 단기 물리와 장기 추세에 특화될 수 있게 한다.
  2. 계층적 MPC

    • 고수준 플래너: 거친 스케일 모델을 사용해 시스템을 목표 방향으로 대략 이동시키는 짧은 “매크로‑액션” 시퀀스를 생성한다. 각 매크로‑액션이 많은 타임스텝을 포함하므로 탐색 트리가 얕다.
    • 중수준 정제: 각 매크로‑액션을 소수의 중간 스케일 액션으로 분해하고, 중간 스케일 모델로 실행 가능성을 확인한다.
    • 저수준 컨트롤러: 마지막으로, 미세 스케일 MPC가 몇 단계에 걸쳐 실행되어 로봇 동역학을 고려한 구체적인 모터 명령을 생성한다.
    • 계층 구조는 온라인으로 실행된다: 고수준 계획은 로봇이 크게 벗어났을 때만 재계산되고, 저수준 컨트롤러는 전체 주기로 실행된다.
  3. 목표 지정

    • 시스템은 최종 잠재 목표(예: “물체가 목표 바구니에 있어야 함”)만을 받는다. 중간 웨이포인트가 필요 없으며, 이는 새로운 장면에 대한 제로샷 전이에서 핵심이다.

결과 및 발견

환경성공 (계층적)성공 (단일 수준)계획 연산 (× 속도 향상)
실제 세계 픽‑앤‑플레이스 (목표만)70 %0 %
시뮬레이션 푸시‑조작85 %62 % faster
미로 탐색 (밀집 장애물)78 %54 %3.5× faster
  • 오류 완화: 거친 모델의 장기 예측은 많은 1단계 예측을 연쇄하는 대신 더 큰 간격을 직접 예측하도록 학습되었기 때문에 누적 오류에 덜 민감합니다.
  • 탐색 공간 감소: 매크로 행동으로 계획함으로써, 단계당 수십 개의 행동에서 수평선당 몇 개의 매크로 행동으로 분기 인자가 감소하여 트리 깊이가 크게 줄어듭니다.
  • 제로샷 전이: 계층 구조는 새로운 로봇 설정에서 미세 조정 없이 바로 작동하여, 이 접근법이 다양한 도메인에 일반화된다는 주장을 확인합니다.

Practical Implications

  • Robotics pipelines: 개발자는 기존 모델 기반 컨트롤러에 가벼운 계층형 래퍼를 추가하여 기본 세계 모델을 재설계하지 않고도 더 긴 계획 수평선을 확보할 수 있습니다.
  • Edge deployment: 감소된 연산량(최대 4배 빠름)으로 인해 실시간 MPC를 임베디드 하드웨어(예: Jetson, Raspberry Pi)에서 창고 피킹이나 자율 검사와 같은 작업에 적용할 수 있습니다.
  • Rapid prototyping: 최종 목표만 있으면 되므로 엔지니어는 웨이포인트 시퀀스를 직접 설계하는 대신 목표 상태를 지정하여 새로운 작업을 프로토타이핑할 수 있어 반복 주기가 가속됩니다.
  • Safety & reliability: 거친 수준의 플래너가 초기 단계에서 안전 제약(예: 장애물과 일정 거리 유지)을 포함할 수 있고, 세밀한 수준의 컨트롤러가 동역학을 처리함으로써 보다 해석 가능하고 검증 가능한 행동을 제공합니다.

Limitations & Future Work

  • 계층 깊이의 확장성: 논문은 세 가지 시간 스케일을 실험했으며, 레벨을 더 추가하면 수익이 감소하고 훈련이 복잡해질 수 있습니다.
  • 모델 편향: 각 잠재 모델이 독립적으로 훈련되기 때문에 스케일 간 불일치가 최적이 아닌 정제를 초래할 수 있습니다. 공동 훈련이나 일관성 정규화가 향후 연구 방향입니다.
  • 작업 다양성: 평가가 조작 및 내비게이션에 초점을 맞추고 있어, 다리 보행이나 공중 드론과 같은 고차원 작업으로 확장하는 것은 아직 탐구되지 않았습니다.
  • 계층 학습: 현재 시간 granularity는 수동으로 선택됩니다. 향후 작업에서는 최적의 시간 단계 구분을 학습하거나 작업 난이도에 따라 온라인으로 조정할 수 있습니다.

저자

  • Wancong Zhang
  • Basile Terver
  • Artem Zholus
  • Soham Chitnis
  • Harsh Sutaria
  • Mido Assran
  • Randall Balestriero
  • Amir Bar
  • Adrien Bardes
  • Yann LeCun
  • Nicolas Ballas

논문 정보

  • arXiv ID: 2604.03208v1
  • 분류: cs.LG
  • 출판일: 2026년 4월 3일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »