[논문] iMaC: 행동을 동작·접촉 이미지로 변환해 구현형 세계 모델 구축

발행: (2026년 6월 9일 AM 02:55 GMT+9)
4 분 소요
원문: arXiv

출처: arXiv - 2606.09813v1

개요

구현된 세계 모델은 시각 로봇 의사결정 및 인터랙티브 환경 시뮬레이션을 위한 핵심 패러다임으로 부상하고 있다. 그러나 기존 구현 프레임워크는 저차원 구조화된 행동 벡터(예: 관절 각도 및 엔드 이펙터 위치)에 의존하는데, 이는 표현 능력의 제한, 다양한 구현체에 대한 일반화 부족, 복잡한 물리적 상호작용을 위한 부자연스러운 동역학 모델링이라는 문제를 안고 있다. 이러한 한계를 극복하기 위해 본 논문은 iMac(Image as Action Control)이라는 새로운 통합 제어 패러다임을 제안한다. iMac은 원시 시각 이미지를 구현된 세계 모델의 고유 행동 표현으로 취급한다. 전통적인 명시적 운동학적 행동 인코딩을 탈피하여, iMac은 연속적인 시각 조작을 이미지 기반 행동 토큰으로 공식화한다. 이러한 토큰은 공간적 움직임 의도, 상호작용 기하학적 제약, 미세한 물리적 동역학을 내재적으로 포함한다. 우리는 이미지‑행동 인코더와 동적 세계 예측기로 구성된 이중‑브랜치 구현 아키텍처를 구축한다: 인코더는 목표‑구동 시각 이미지를 압축된 행동 임베딩으로 변환하고, 예측기는 이미지 행동에 조건화된 환경 전이 규칙을 학습하여 고충실도의 미래 상태 예측 및 폐쇄‑루프 구현 제어를 달성한다. 공개된 구현 조작 벤치마크와 실제 로봇 시나리오에서 광범위한 실험을 수행하였다. 결과는 iMac이 벡터 기반 행동 제어 베이스라인에 비해 예측 정확도, 작업 성공률, 장면 간 일반화 능력에서 우수함을 보여준다. 또한, 우리의 이미지‑행동 설계는 수동으로 정의된 행동 공간에 대한 의존성을 없애 heterogeneous 구현 에이전트에 대한 유연하고 보편적인 제어를 실현한다. 이 연구는 구현된 세계 모델에 대한 혁신적인 시각‑행동 관점을 제공하며, 확장 가능한 로봇 인식 및 조작을 위한 간단하면서도 효과적인 패러다임을 제시한다.

주요 기여

본 논문은 다음 분야의 연구를 제시한다:

  • cs.RO
  • cs.CV

방법론

자세한 방법론은 전체 논문을 참고하시기 바란다.

실용적 함의

본 연구는 cs.RO 분야의 발전에 기여한다.

저자

  • Zhenyu Wu
  • Xiuwei Xu
  • Yukun Zhou
  • Yifan Li
  • Qiuping Deng
  • Xiaofeng Wang
  • Zheng Zhu
  • Bingyao Yu
  • Ziwei Wang
  • Jiwen Lu
  • Haibin Yan

논문 정보

  • arXiv ID: 2606.09813v1
  • 분류: cs.RO, cs.CV
  • 발표일: 2026년 6월 8일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »