[논문] 비디오 월드 모델을 위한 잠재 공간 메모리

발행: 3일 전 (2026년 6월 9일 AM 02:59 GMT+9)

4 분 소요

원문: arXiv

출처: arXiv - 2606.09828v1

개요

생성된 프레임들 간에 3D 공간 일관성을 유지하는 비디오 월드 모델은 일반적으로 RGB 공간에서 구축된 명시적인 포인트 클라우드 메모리에 의존합니다. 이러한 설계는 반복적인 렌더링과 VAE 인코딩이 필요해 계산 비용이 많이 들 뿐만 아니라, 픽셀 공간을 거치는 과정에서 학습된 잠재 표현의 풍부한 특징이 손실되는 본질적인 손실성을 가지고 있습니다. 본 논문에서는 비디오 월드 모델을 위해 잠재 공간 메모리(latent spatial memory) 를 도입합니다. 이는 확산 잠재 공간에 장면 정보를 직접 저장하는 지속적인 3D 캐시로, 픽셀 공간 복원을 피합니다. 이를 기반으로 우리는 Mirage 라는 잠재 공간 기반 공간 메모리 프레임워크를 제안합니다. Mirage는 깊이 정보를 이용한 역투영을 통해 잠재 토큰을 3D로 올리고, 직접적인 잠재 공간 워핑을 통해 새로운 뷰를 합성함으로써 메모리를 쿼리합니다. 이 통합된 접근 방식은 픽셀 공간 복원의 정보 손실과 반복적인 인코딩·렌더링의 계산 부담을 모두 제거합니다. 실험 결과, 잠재 공간 메모리는 명시적인 3D 기반 모델에 비해 엔드‑투‑엔드 비디오 생성 속도가 최대 10.57배 빨라지고 메모리 사용량이 55배 감소함을 보여줍니다. 확산 모델의 기하학적 사전 지식을 활용한 Mirage는 WorldScore에서 최첨단 성능을 달성했으며 RealEstate10K에서 강력한 재구성 품질을 보입니다.

주요 기여

본 논문은 다음 분야의 연구를 제시합니다.

cs.CV

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

이 연구는 cs.CV 분야의 발전에 기여합니다.

저자

Weijie Wang
Haoyu Zhao
Yifan Yang
Feng Chen
Zeyu Zhang
Yefei He
Zicheng Duan
Donny Y. Chen
Yuqing Yang
Bohan Zhuang

논문 정보

arXiv ID: 2606.09828v1
분류: cs.CV
발표일: 2026년 6월 8일
PDF: PDF 다운로드

[논문] 비디오 월드 모델을 위한 잠재 공간 메모리

개요

주요 기여

방법론

실용적 함의

저자

논문 정보

관련 글

[Paper] 한 시간짜리 영상에서 자연어 시간 정합은 검색 문제: 벤치마크와 실증적 분해

[논문] 포렌식 이미지 검색의 모달리티 격차 해소

[논문] CellNet – 희소하고 잡음이 섞인 포인트 주석으로 세포 위치 파악

[논문] 점진적 크기 기반 프루닝으로 한 번의 학습 사이클에서 희소 서브네트워크 찾기