[논문] MemoryVLA++: 비전‑언어‑액션 모델에서 기억과 상상을 활용한 시간 모델링

발행: 3일 전 (2026년 6월 9일 AM 02:59 GMT+9)

4 분 소요

원문: arXiv

출처: arXiv - 2606.09827v1

개요

시간 모델링은 로봇 조작에 필수적이며, 효과적인 제어를 위해서는 과거 상호작용에 대한 기억과 미래 상태에 대한 상상이 모두 필요합니다. 그러나 대부분의 VLA 모델은 현재 관찰에 주로 의존하기 때문에 장기적인 시간 의존 작업에서 어려움을 겪습니다. 인지 과학은 인간이 작업 기억을 이용해 짧은 기간의 컨텍스트를 버퍼링하고, 해마 시스템을 통해 과거 경험의 일화적 기억을 보존하며, 내부 모델을 사용해 가능한 미래 상태 변화를 상상한다는 점을 시사합니다. 이러한 메커니즘에 영감을 받아, 우리는 로봇 조작을 위한 기억과 상상을 갖춘 완전한 시간 모델링 프레임워크인 **MemoryVLA++**를 제안합니다. 사전 학습된 VLM은 현재 관찰을 지각 토큰과 인지 토큰으로 인코딩하여 작업 기억을 형성합니다. 이러한 토큰은 지각‑인지 메모리 뱅크에 질의하여 관련된 과거 컨텍스트를 검색합니다. 이 뱅크는 과거 상호작용에서 얻은 저수준 세부 정보와 고수준 의미를 저장하며, 중복 인식을 고려한 통합 과정을 통해 업데이트됩니다. 세계 모델은 디노이징 잠재 공간에서 미래 상태를 상상하고, 상상된 잠재 표현은 기억의 안내 하에 통합되어 완전한 시간 인식 토큰을 형성합니다. 최종 토큰은 확산 행동 전문가에 조건을 제공하여 시간적으로 일관된 행동 시퀀스를 예측합니다. 우리는 5개의 시뮬레이션 벤치마크와 3대 로봇에 걸친 3가지 실험 카테고리(일반 조작, 장기 시간 작업, 견고성 및 일반화)를 포함한 광범위한 실험을 수행했습니다. 우리의 방법은 Libero, SimplerEnv, Mikasa‑Robo, Calvin, Libero‑Plus 및 다양한 실 로봇 작업에서 강력한 성능을 보이며, 기억과 상상을 통한 완전한 시간 모델링의 효과를 입증했습니다. 예를 들어 실 로봇에서는 일반 작업, 기억 의존 작업, 상상 의존 작업에서 각각 +9%, +26%, +28%의 향상을 달성했습니다. 프로젝트 페이지: https://shihao1895.github.io/MemoryVLA-PP-Web

핵심 기여

이 논문은 다음 분야의 연구를 제시합니다:

cs.RO
cs.CV

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

이 연구는 cs.RO 분야의 발전에 기여합니다.

저자

Hao Shi
Weiye Li
Bin Xie
Yulin Wang
Renping Zhou
Tiancai Wang
Xiangyu Zhang
Ping Luo
Gao Huang

논문 정보

arXiv ID: 2606.09827v1
분류: cs.RO, cs.CV
발표일: 2026년 6월 8일
PDF: PDF 다운로드

[논문] MemoryVLA++: 비전‑언어‑액션 모델에서 기억과 상상을 활용한 시간 모델링

개요

핵심 기여

방법론

실용적 함의

저자

논문 정보

관련 글

[Paper] 한 시간짜리 영상에서 자연어 시간 정합은 검색 문제: 벤치마크와 실증적 분해

[논문] 포렌식 이미지 검색의 모달리티 격차 해소

[논문] CellNet – 희소하고 잡음이 섞인 포인트 주석으로 세포 위치 파악

[논문] 점진적 크기 기반 프루닝으로 한 번의 학습 사이클에서 희소 서브네트워크 찾기