[Paper] RELIC: 인터랙티브 비디오 월드 모델과 장기 지평 메모리
Source: arXiv - 2512.04040v1
Overview
이 논문은 RELIC이라는 새로운 인터랙티브 비디오 월드‑모델을 소개한다. RELIC은 실시간으로 고품질 비디오를 스트리밍하면서 이미 본 내용을 기억하고 사용자 명령에 정확히 응답한다. 장기 메모리, 3‑D‑일관성 공간 회상, 빠른 추론을 결합함으로써, 가상 환경, 게임, AR/VR 프로토타이핑과 같은 인터랙티브 애플리케이션에서 생성 비디오 시스템이 할 수 있는 범위를 확장한다.
Key Contributions
- 통합 프레임워크: 실시간 스트리밍, 장기 메모리, 세밀한 사용자 제어를 동시에 제공한다. 기존 모델들은 이 중 하나만을 별도로 다루었다.
- 압축된 잠재‑토큰 메모리: 상대 행동과 절대 카메라 자세를 모두 인코딩하는 키‑밸류(KV) 캐시에 저장되어 효율적인 3‑D‑일관성 검색을 가능하게 한다.
- 양방향 교사‑학생 증류: 5초 비디오 디퓨전 모델을 미세조정하고, 새로운 “self‑forcing” 훈련 방식으로 인과적 학생 모델에 증류하여 임의 길이의 시퀀스를 생성할 수 있게 한다.
- 확장 가능한 구현: 140억 파라미터 모델을 정제된 Unreal Engine 데이터셋으로 학습시켜 단일 GPU에서 약 16 FPS를 달성, 실시간 성능을 구현한다.
- 기존 베이스라인 대비 개선을 입증하였다(행동 충실도, 장기 안정성, 공간 메모리 회상 측면).
Methodology
- 입력 및 조건화 – 시스템은 단일 레퍼런스 이미지와 텍스트 명령(예: “앞으로 세 걸음 걷기”)을 받는다.
- 잠재 비디오 디퓨전 – 자동회귀 디퓨전 모델이 잠재 공간에서 비디오 프레임을 생성한다. 이는 픽셀‑공간 디퓨전에 비해 계산 비용이 크게 낮다.
- 메모리 표현 – 과거 프레임은 잠재 토큰으로 압축된다. 이 토큰은 프레임을 만든 움직임(상대 행동)과 카메라의 절대 자세를 모두 포착한다. 토큰들은 KV 캐시에 저장돼 컴팩트한 에피소드 메모리 역할을 한다.
- 카메라‑인식 검색 – 새로운 프레임을 생성할 때 모델은 현재 자세를 이용해 캐시를 질의하고, 가장 관련성 높은 토큰을 가져와 씬 전체의 3‑D 일관성을 유지한다.
- 교사‑학생 증류 – 5초 클립에 대해 학습된 양방향 “교사” 디퓨전 모델을 초과 시간 예측하도록 미세조정한다. 인과적 “학생” 모델은 self‑forcing 방식을 통해 교사로부터 학습한다. 이 방식은 학생의 자체 예측을 교사의 컨텍스트에 다시 넣어, 메모리 사용량을 폭발시키지 않으면서 장거리 의존성을 학습하게 한다.
- 실시간 추론 – 증류된 학생 모델은 자동회귀적으로 실행되며 매 단계 KV 캐시에서 토큰을 끌어와 단일 GPU에서 16 FPS 생성 속도를 달성한다.
Results & Findings
| 지표 | RELIC | 기존 최첨단 |
|---|---|---|
| 추론 속도 | ~16 FPS (단일 GPU) | 4–8 FPS |
| 행동 추종 정확도 | 92 % (텍스트‑대‑행동 정렬) | ~78 % |
| 장기 일관성 (5 s vs 30 s drift) | <2 % drift | >7 % drift |
| 공간 메모리 회상 (자세‑조건 회상) | 85 % 정확 회상 | 61 % |
정성적으로, RELIC은 가상 방을 수십 초 동안 탐색하면서 이전에 본 코너를 정확히 재진입하고, 긴 카메라 회전 후에도 이동된 의자와 같은 객체를 올바른 위치에 유지한다. self‑forcing 증류는 학생이 교사의 원래 훈련 지평을 훨씬 넘어 롤아웃할 때 일관성을 유지하는 데 핵심이었다.
Practical Implications
- 게임 및 VR 프로토타이핑 – 개발자는 모든 가능한 카메라 경로를 미리 만들 필요 없이 인터랙티브하고 탐색 가능한 환경을 실시간으로 생성할 수 있어 레벨 디자인 반복 속도가 크게 빨라진다.
- AR 콘텐츠 제작 – 사용자의 시점을 고려한 실시간 비디오 합성은 물리적 세계에 고정된 동적 오버레이를 가능하게 한다.
- 시뮬레이션 및 교육 – 장시간, 메모리‑인식 비디오 스트림은 로봇이나 자율주행 차량 훈련을 위한 현실적인 시나리오를 모델링할 수 있다(에이전트가 과거 장애물을 기억해야 함).
- 크리에이티브 툴 – 아티스트는 “숲을 걸어다니기”와 같은 고수준 행동을 스크립트하고, RELIC이 일관되고 포토리얼리스틱한 영상을 자동으로 채워주어 수작업 애니메이션 작업을 크게 줄일 수 있다.
- 확장 가능한 클라우드 서비스 – 메모리 캐시가 가볍기 때문에 RELIC은 인터랙티브 미디어 플랫폼을 위한 저지연 API로 배포될 수 있다.
Limitations & Future Work
- 도메인 특이성 – 모델은 합성된 Unreal Engine 씬으로 학습되었으며, 실제 영상이나 매우 다양한 시각 도메인에서는 성능이 저하될 수 있다.
- 메모리 확장성 – KV 캐시가 컴팩트하지만, 매우 긴 세션(수분 이상)은 GPU 메모리를 초과할 수 있어 계층적 또는 디바이스 외 캐싱 전략이 필요하다.
- 행동 세분화 – 정밀한 손 제스처와 같은 미세 조작은 아직 지원되지 않으며, 행동 공간 확장이 향후 과제이다.
- 새로운 카메라 모델에 대한 일반화 – 현재 자세 인코딩은 핀홀형 카메라를 가정하므로, 어안 또는 360° 카메라에 적용하려면 추가 연구가 필요하다.
저자들은 실제 비디오를 포함한 학습 데이터 확대, 계층적 메모리 구조 탐색, 멀티모달 제어(예: 음성 + 제스처) 통합 등을 다음 단계로 제시한다.
Authors
- Yicong Hong
- Yiqun Mei
- Chongjian Ge
- Yiran Xu
- Yang Zhou
- Sai Bi
- Yannick Hold‑Geoffroy
- Mike Roberts
- Matthew Fisher
- Eli Shechtman
- Kalyan Sunkavalli
- Feng Liu
- Zhengqi Li
- Hao Tan
Paper Information
- arXiv ID: 2512.04040v1
- Categories: cs.CV
- Published: December 3, 2025
- PDF: Download PDF