[Paper] Solaris: 마인크래프트에서 멀티플레이어 비디오 월드 모델 구축
발행: (2026년 2월 26일 오전 03:59 GMT+9)
10 분 소요
원문: arXiv
Source: arXiv - 2602.22208v1
Overview
이 논문은 Solaris를 소개합니다. Solaris는 공유된 Minecraft 환경에서 여러 에이전트가 상호 작용할 때 일관된 다중 뷰 비디오 스트림을 생성할 수 있는 최초의 비디오 월드 모델입니다. 전용 데이터 수집 파이프라인과 새로운 학습 방식을 구축함으로써, 저자들은 단일 플레이어가 보는 것만 모델링하는 것이 아니라 여러 플레이어의 시점이 시간에 따라 어떻게 함께 변하는지를 모델링하는 것이 가능함을 입증했습니다. 이는 게임, 로봇공학 및 AI 연구를 위한 보다 풍부한 시뮬레이션의 문을 열어줍니다.
주요 기여
- Multiplayer data system: 여러 에이전트가 함께 마인크래프트를 플레이하면서 동기화된 비디오, 행동, 세계 상태를 자동으로 기록하는 파이프라인으로, 총 12.64 M 프레임을 생성합니다.
- Evaluation suite for multiplayer dynamics: 움직임 협조, 과거 사건에 대한 기억, 객체의 의미 부여, 협업 건축, 그리고 시점 간 일관성을 다루는 벤치마크 모음.
- Staged training pipeline: 단일 플레이어 모델링으로 시작해 점진적으로 다중 에이전트 상호작용을 도입하는 접근법으로, 양방향, 인과관계, 그리고 Self‑Forcing 목표를 혼합합니다.
- Checkpointed Self‑Forcing: 메모리 효율적인 변형으로, GPU 사용량을 급증시키지 않으면서도 (장기‑horizon teacher) 모델이 멀리 앞을 내다볼 수 있게 합니다.
- Open‑source release: 데이터 수집 프레임워크, 학습된 모델, 평가 코드를 공개하여 향후 다중 에이전트 월드‑모델 연구를 위한 기반을 제공합니다.
Methodology
- Data Collection – 저자들은 각자 카메라를 가진 여러 봇을 스폰하는 맞춤형 Minecraft 서버를 구축했습니다. 서버는 각 프레임, 해당 행동(예: 이동, 블록 배치) 및 전역 세계 스냅샷을 20 Hz로 기록하여 에이전트 간 완벽한 시간 정렬을 보장합니다.
- Model Architecture – Solaris는 다중 조건 스트림을 갖는 비디오 확산 백본을 확장합니다:
- Agent‑specific action tokens (각 플레이어가 수행하는 행동).
- Shared world memory는 모든 에이전트의 과거 프레임에 대한 압축 표현을 저장합니다.
- Bidirectional causal layers는 정보를 시간적으로 앞뒤로 흐르게 하여 일관성을 향상시킵니다.
- Training Stages –
- Stage 1: 기본 물리와 텍스처 생성을 학습하기 위해 싱글‑플레이어 클립으로 훈련합니다.
- Stage 2: 쌍을 이루는 에이전트를 도입하여, 한 에이전트의 행동을 조건으로 다른 에이전트의 시점을 예측하도록 모델을 유도합니다(인과적 조건).
- Stage 3: Self‑Forcing을 적용합니다. 모델의 자체 예측을 다음 타임스텝의 입력으로 되돌려 보내어 일관성을 유지하도록 강제합니다.
- Stage 4: Checkpointed Self‑Forcing—전체 장기 교사 궤적을 저장하는 대신 중간 상태를 체크포인트로 저장하여 메모리를 크게 절감하면서도 멀리 보는 감독 신호를 제공합니다.
- Evaluation – 저자들은 Solaris를 다섯 가지 축(이동, 기억, 기반, 건축, 시점 일관성)에서 정량적 지표(예: PSNR, SSIM, 행동‑예측 정확도)와 인간 평가를 모두 사용해 테스트합니다.
결과 및 발견
- Solaris는 기존 단일‑에이전트 비디오 월드 모델보다 15‑20 % 더 높은 교차‑시점 일관성 지표를 기록했으며, 이는 장기적인 시간 동안 여러 관점을 정렬할 수 있음을 나타냅니다.
- building 벤치마크에서, 모델은 협업 구조를 87 %의 정확도로 예측했으며, 최고 기준선은 62 %에 불과했습니다.
- Checkpointed Self‑Forcing은 GPU 메모리 사용량을 약 45 % 감소시키면서 교사 horizon을 8프레임에서 32프레임으로 확장하여 보다 부드러운 장기 예측을 가능하게 합니다.
- 인간 평가자는 Solaris‑생성 멀티플레이어 비디오를 경쟁 모델의 비디오보다 78 %의 쌍별 비교에서 “더 현실적”이고 “조정이 잘 된” 것으로 평가했습니다.
Practical Implications
- Game AI & Content Generation – 게임 AI 및 콘텐츠 생성 – 개발자는 Solaris를 사용해 멀티플레이어 시나리오를 프로토타이핑하고, 플레이어 시점마다 일관되게 반응하는 NPC 행동을 자동 생성하거나, 여러 카메라에 맞춰 동적으로 변하는 컷신을 만들 수 있습니다.
- Robotics & Simulation – 로보틱스 및 시뮬레이션 – 이 프레임워크는 로봇 군집(예: 창고 드론) 시뮬레이션에 적용할 수 있으며, 각 로봇의 센서 피드가 서로 일관성을 유지하도록 하여 실제 배포 전에 보다 안전한 정책 테스트를 가능하게 합니다.
- Virtual Collaboration Tools – 가상 협업 도구 – VR/AR 회의 공간에서 Solaris 스타일 모델은 각 참가자의 시점에서 공유 환경을 예측·렌더링하여, 고수준 행동 업데이트만 전송함으로써 지연 시간과 대역폭을 줄일 수 있습니다.
- Research Platforms – 연구 플랫폼 – 데이터 파이프라인을 오픈소스화함으로써 커뮤니티는 이제 대규모·다양한 데이터셋에서 멀티 에이전트 세계 모델을 벤치마크할 수 있게 되었으며, 멀티 에이전트 강화 학습 및 생성 모델링의 발전을 가속화합니다.
제한 사항 및 향후 연구
- 도메인 특수성 – 이 시스템은 마인크래프트의 블록 기반 그래픽에 맞게 조정되었습니다; 포토리얼리즘이나 물리 중심 환경으로 전환하려면 상당한 적응이 필요할 수 있습니다.
- 에이전트 확장성 – 실험은 최대 네 명의 에이전트를 포함합니다; 수십 또는 수백 명(예: 대규모 멀티플레이어 온라인 게임)으로 확장하면 동기화와 메모리에서 병목 현상이 드러날 수 있습니다.
- 행동 공간 범위 – 마인크래프트 행동 중 일부(이동, 블록 배치/제거)만 모델링되었습니다; 전투나 인벤토리 관리와 같은 더 풍부한 상호작용은 아직 탐구되지 않았습니다.
- 향후 방향 – 저자들은 Solaris를 이종 센서 모달리티(오디오, 깊이)로 확장하고, 정책 조건부 생성에 강화 학습을 통합하며, 더 큰 에이전트 집단을 처리하기 위해 계층적 메모리 구조를 탐구할 것을 제안합니다.
저자
- Georgy Savva
- Oscar Michel
- Daohan Lu
- Suppakit Waiwitlikhit
- Timothy Meehan
- Dhairya Mishra
- Srivats Poddar
- Jack Lu
- Saining Xie
논문 정보
- arXiv ID: 2602.22208v1
- 분류: cs.CV
- 출판일: 2026년 2월 25일
- PDF: PDF 다운로드