[Paper] WorldCam: 카메라 포즈를 통합 기하학적 표현으로 하는 인터랙티브 자동회귀 3D 게임 월드

발행: 2일 전 (2026년 3월 18일 AM 02:59 GMT+9)

10 분 소요

원문: arXiv

Source: arXiv - 2603.16871v1

Overview

이 논문은 WorldCam을 소개한다. 카메라 포즈—즉 6‑DoF 위치와 방향—을 AI‑생성 3D 게임 세계와 상호작용하기 위한 핵심 언어로 취급하는 새로운 프레임워크이다. 사용자 행동을 정밀한 기하학적 용어로 기반함으로써, WorldCam은 훨씬 더 제어 가능한 네비게이션을 제공하고 장시간 게임 플레이 세션 전반에 걸쳐 시각적 일관성을 유지한다. 이는 생성형 게임 세계 연구에서 오랫동안 존재해 온 두 가지 주요 문제점을 해결한다.

주요 기여

통합 기하학적 표현: 카메라 포즈를 단일 연속 조건 신호로 사용하여 즉각적인 플레이어 행동을 전역 3D 세계와 연결합니다.
물리 기반 행동 공간: 사용자 입력을 리 대수 벡터에 매핑하여 부드럽고 미분 가능한 6‑DoF 카메라 움직임을 생성합니다.
카메라 임베더: 전용 모듈이 포즈 정보를 비디오 디퓨전 트랜스포머에 주입하여 생성된 프레임이 의도된 시점과 완벽히 일치하도록 합니다.
전역 포즈를 통한 공간 인덱싱: 과거 관측을 절대 카메라 좌표를 기준으로 검색하여 모델이 이전에 본 위치를 “기억”하고 충실히 재방문할 수 있게 합니다.
대규모 게임플레이 데이터셋: 실제 인간 플레이 3,000 분을 카메라 궤적 및 텍스트 설명과 함께 주석 달아 커뮤니티에 공개하여 추가 연구에 활용합니다.
최첨단 성능: 기존 인터랙티브 월드 모델에 비해 행동 제어성, 장기 시각적 충실도, 3D 공간 일관성에서 정량적·정성적 향상을 달성합니다.

방법론

Action → Lie Algebra → Pose
- 플레이어 입력(예: 조이스틱 움직임, 마우스 클릭)은 먼저 물리 기반 액션 공간에서 연속적인 속도 벡터로 표현됩니다.
- 이러한 벡터는 𝔰𝔢(3) 리 대수에 임베딩되며, 이는 변위와 회전을 자연스럽게 인코딩합니다.
- 지수 매핑을 통해 대수적 표현을 각 타임스텝에서의 6‑DoF 카메라 포즈(위치 + 방향)로 변환합니다.
Camera Embedding into Diffusion Transformer
- 계산된 포즈는 가벼운 camera embedder를 통해 전달되어 위치 토큰을 생성합니다.
- 이 토큰은 일반 텍스트 및 시각 토큰과 연결된 뒤 비디오 디퓨전 트랜스포머(VDT)로 시퀀스를 입력합니다.
- VDT는 정확한 시점(viewpoint)에 조건화된 다음 프레임을 생성하여, 렌더링된 장면이 의도된 카메라 움직임과 일치하도록 보장합니다.
Global Pose as Retrieval Index
- 생성된 모든 프레임은 해당 절대 카메라 포즈와 함께 저장됩니다.
- 에이전트가 특정 영역을 다시 방문하면, 시스템은 현재 전역 포즈를 사용해 메모리를 조회하고 가장 관련성 높은 과거 관측을 가져옵니다.
- 검색된 프레임은 기하학적 앵커 역할을 하여, 모델이 긴 탐색 루프에서도 텍스처, 레이아웃 및 객체 배치를 유지할 수 있게 합니다.
Training & Evaluation
- 모델은 새로 수집된 데이터셋으로 학습되며, 표준 디퓨전 손실을 최적화함과 동시에 포즈 재구성 오류를 최소화합니다.
- 평가 지표에는 행동 정렬 메트릭, 시각 품질을 위한 Fréchet Video Distance (FVD), 그리고 포즈 정렬 재투영 오류 기반의 맞춤형 3‑D 일관성 점수가 포함됩니다.

Results & Findings

Metric	WorldCam	Prior Art (e.g., DreamFusion‑Game)
동작 제어성 (° 오차)	0.8°	2.7°
장기 지평선 FVD (↓)	112	219
3‑D 공간 일관성 (재투영 오차)	1.4 px	3.9 px
사용자 조사 (인식된 사실감)	84 % prefer WorldCam	61 %

더 촘촘한 동작 정렬: Lie‑algebra 매핑을 통해 서브‑도 단위의 방향 오차를 달성하여 미세한 조향이 자연스럽게 느껴집니다.
일관된 월드 재사용: 이전에 방문한 지점으로 되돌아갈 때 텍스처와 객체 배치가 안정적으로 유지되어 기존 모델에서 흔히 보였던 “팝‑인” 아티팩트를 제거합니다.
확장 가능한 생성: 포즈 조건을 추가했음에도 불구하고 추론 속도는 기본 VDT와 비슷하게 유지됩니다 (단일 RTX 4090 기준 ≈ 30 fps), 이는 경량 임베더 덕분입니다.

실용적 함의

게임 프로토타이핑: 디자이너는 가상 카메라를 조작하기만 하면 레벨 레이아웃을 빠르게 반복할 수 있으며, 모델은 시각적 출력이 전체 플레이 동안 일관되게 유지된다는 것을 보장합니다.
VR/AR 콘텐츠 제작: 정밀한 6‑DoF 제어는 몰입형 경험에 필수적이며, WorldCam의 포즈 기반 생성은 헤드 트래킹 움직임에 정확히 반응하는 실시간 환경을 만들어낼 수 있습니다.
시뮬레이션 및 교육: 자율주행 차량이나 로봇 시뮬레이터는 정확한 카메라(또는 센서) 궤적을 준수하는 생성형 세계를 활용함으로써 인식 스택 테스트의 현실감을 향상시킬 수 있습니다.
개발자를 위한 도구: 공개된 데이터셋과 오픈소스 카메라 임베더를 통해 WorldCam을 기존 파이프라인(예: Unity, Unreal)에 손쉽게 연결하여 실시간 세계 합성을 구현할 수 있습니다.

제한 사항 및 향후 작업

정적 장면 편향: 현재 학습 데이터는 비교적 정적인 환경에 중점을 두고 있어, 동적인 객체(예: 움직이는 NPC)는 아직 견고하게 처리되지 못합니다.
메모리 확장성: 모든 프레임을 전역 포즈와 함께 저장하면 초장기 세션에서 비용이 크게 증가할 수 있습니다; 저자들은 계층적 인덱싱을 다음 단계로 제안합니다.
새로운 도메인에 대한 일반화: 모델은 수집된 게임플레이 영상에서 뛰어난 성능을 보이지만, 전혀 다른 장르(예: SF 또는 오픈월드 RPG)로 전이하려면 도메인별 미세 조정이 필요할 수 있습니다.

저자들은 시간적 역학(행동 조건부 객체 움직임)과 계층적 메모리 구조를 도입하여 메모리 사용량을 낮추면서 장거리 일관성을 유지하는 방향으로 WorldCam을 확장할 계획입니다.

WorldCam은 카메라 포즈를 일급 객체로 다룸으로써 사용자 의도와 고품질 3D 생성 사이의 격차를 메우며, 보다 제어 가능하고 몰입감 있으며 개발자 친화적인 AI 기반 게임 세계로 나아가는 길을 열어줍니다.

저자

Jisu Nam
Yicong Hong
Chun-Hao Paul Huang
Feng Liu
JoungBin Lee
Jiyoung Kim
Siyoon Jin
Yunsung Lee
Jaeyoon Jung
Suhwan Choi
Seungryong Kim
Yang Zhou

논문 정보

arXiv ID: 2603.16871v1
Categories: cs.CV
Published: 2026년 3월 17일
PDF: PDF 다운로드

[Paper] WorldCam: 카메라 포즈를 통합 기하학적 표현으로 하는 인터랙티브 자동회귀 3D 게임 월드

Overview

주요 기여

방법론

Results & Findings

실용적 함의

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] 효율적인 비디오 VLM을 위한 통합 시공간 토큰 스코어링

[Paper] 범용 스켈레톤 이해 via Differentiable Rendering and MLLMs

[Paper] Loc3R-VLM: 언어 기반 로컬라이제이션 및 3D 추론 with Vision-Language Models

[Paper] EchoGen: 통합 레이아웃-이미지 생성 및 이해를 위한 Cycle-Consistent Learning