[논문] AHA‑WAM: 관찰 기반 컨텍스트 라우팅을 활용한 비동기 수평 적응형 세계‑행동 모델링
개요
World‑action 모델은 로봇 조작을 위한 유망한 패러다임으로 떠오르고 있으며, 시각적 장면 동역학과 행동을 공동으로 모델링하여 정책 학습에 물리적 사전지식을 주입합니다. 그러나 기존 World‑action 모델은 세계 예측과 행동 실행을 동일한 시간 해상도로 결합시켜, 세계 브랜치가 중복되고 정보량이 적은 단기 프레임 변화를 모델링하도록 강요합니다. 우리는 세계 예측과 행동 실행을 동일한 시간 리듬에 엄격히 묶는 것이 구현 제어를 위한 비디오 브랜치의 잠재력을 충분히 활용하지 못한다고 가정합니다. 따라서 우리는 시간 비대칭성을 중심으로 World‑action 모델링을 재구성하는 이중 Diffusion Transformer (DiT) 아키텍처 기반의 비동기적 Horizon‑Adaptive World‑Action Model, AHA‑WAM을 제안합니다. AHA‑WAM은 비디오 DiT를 저주파 세계 플래너로 구현하여 과거 관측에 대한 롤링 키‑밸류 메모리를 유지하고, 장기 장면 변화를 인코딩하는 재사용 가능한 레이어별 잠재 컨텍스트를 제공합니다. 반면 고주파 행동 DiT는 레이어별 공동 어텐션을 통해 이 컨텍스트를 질의함으로써 짧은 행동 청크를 폐쇄 루프 방식으로 실행합니다. 비동기 실행을 지원하기 위해 우리는 horizon‑adaptive offset training과 **Observation‑Guided Video‑Context Routing (OVCR)**을 도입했으며, 이는 행동 전문가가 비디오 DiT를 다시 실행하지 않고도 장기 세계 컨텍스트를 활용하면서 실시간 실행 상태에 민감하게 반응하도록 합니다. RoboTwin 및 실제 조작 작업에 대한 실험 결과, AHA‑WAM은 로봇 데이터 사전 학습 없이도 최첨단 성능을 달성했으며, RoboTwin에서 평균 성공률 92.80%, 4개의 실제 작업에서 78.3% 성공률을 기록했고, Fast‑WAM 대비 4.59배 빠른 24.17 Hz 폐쇄‑루프 제어 속도를 구현했습니다.
주요 기여
이 논문은 다음 분야의 연구를 제시합니다:
- cs.RO
- cs.AI
- cs.CV
방법론
자세한 방법론은 전체 논문을 참고하십시오.
실용적 함의
본 연구는 cs.RO 분야의 발전에 기여합니다.
저자
- Jisong Cai
- Long Ling
- Shiwei Chu
- Zhongshan Liu
- Jiayue Kang
- Zhixuan Liang
- Wenjie Xu
- Yinan Mao
- Weinan Zhang
- Xiaokang Yang
- Ru Ying
- Ran Zheng
- Yao Mu
논문 정보
- arXiv ID: 2606.09811v1
- 분류: cs.RO, cs.AI, cs.CV
- 출판일: 2026년 6월 8일
- PDF: PDF 다운로드