[논문] WorldKV: 세계 검색·압축을 통한 효율적인 세계 메모리

발행: 2주 전 (2026년 5월 22일 AM 01:55 GMT+9)

3 분 소요

원문: arXiv

Source: arXiv - 2605.22718v1

개요

자동회귀 비디오 확산 모델은 실시간으로 행동에 조건화된 세계 생성을 가능하게 했습니다. 그러나 이전에 본 시점을 다시 방문했을 때 일관된 내용을 제공하는 지속 가능한 세계를 유지하는 문제는 아직 해결되지 않았습니다. 전체 KV‑cache 어텐션은 이러한 일관성을 보존하지만, 메모리 사용량과 어텐션 비용이 롤아웃 길이에 따라 선형적으로 증가해 실시간 제약을 깨뜨립니다. 슬라이딩 윈도우 추론은 처리량을 회복하지만 장기 일관성을 포기합니다. 우리는 WorldKV라는 학습 없이 사용할 수 있는 프레임워크를 제안합니다. 이 프레임워크는 World Retrieval과 World Compression 두 구성 요소로 이루어집니다. World Retrieval은 버려진 KV‑cache 청크를 GPU/CPU 메모리에 저장하고, 카메라·행동 대응을 통해 장면과 관련된 청크만 선택적으로 가져와 재인코딩 없이 원래 어텐션 윈도우에 삽입합니다. World Compression은 각 청크 내에서 키‑키 유사도를 이용해 앵커 프레임에 대한 중복 토큰을 제거함으로써 청크당 저장 용량을 절반으로 줄이고, 고정된 예산 하에서 두 배 더 많은 히스토리를 저장할 수 있게 합니다. Matrix‑Game‑2.0 및 LingBot‑World‑Fast에서 WorldKV는 전체 KV 메모리와 동등하거나 그 이상의 충실도를 유지하면서 약 2배의 처리량을 달성했으며, 어떠한 파인튜닝도 없이 메모리 기반 학습 모델과도 경쟁합니다. 프로젝트 페이지: https://cvlab-kaist.github.io/WorldKV/

주요 기여

이 논문은 다음 분야의 연구를 다룹니다.

cs.CV

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

본 연구는 cs.CV 분야의 발전에 기여합니다.

저자

정이
김민재
조현빈
장우석
윤상두
김승룡

논문 정보

arXiv ID: 2605.22718v1
분류: cs.CV
발표일: 2026년 5월 21일
PDF: PDF 다운로드

[논문] WorldKV: 세계 검색·압축을 통한 효율적인 세계 메모리

개요

주요 기여

방법론

실용적 함의

저자

논문 정보

관련 글

[Paper] Geo-Align: Metric Geometry Reward를 통한 비디오 생성 정렬

[Paper] PiD: 빠르고 고해상도 잠재 디코딩 with Pixel Diffusion

[Paper] ETCHR: 편집을 통한 명확화 및 추론 활용

[Paper] 활성화에서 인과성으로: 인간 뇌에서 Causal Visual Representations 발견