[Paper] Hunyuan-GameCraft-2: 명령어 기반 인터랙티브 게임 월드 모델
발행: (2025년 11월 29일 오전 03:26 GMT+9)
8 min read
원문: arXiv
Source: arXiv - 2511.23429v1
Overview
Hunyuan‑GameCraft‑2는 정적인 씬 합성을 넘어, 사용자가 자연어 명령, 키보드 또는 마우스 입력으로 비디오 기반 게임 시뮬레이션을 제어할 수 있게 함으로써 생성적 게임 세계 모델링을 한 단계 끌어올립니다. 대규모 비구조화 텍스트‑비디오 쌍을 인과적으로 정렬된 인터랙티브 데이터로 변환함으로써, 저자는 보다 유연하고 저비용으로 동적인 플레이어 주도형 게임 콘텐츠를 만드는 방법을 보여줍니다.
Key Contributions
- Instruction‑driven interaction: 기존의 경직된 키보드 전용 제어 방식을 자유형 언어, 마우스, 키보드 신호로 대체하여 풍부한 게임플레이 조작을 가능하게 합니다.
- Automated interactive dataset pipeline: 방대한 텍스트‑비디오 코퍼스를 인과적으로 정렬된 “interactive video” 쌍으로 변환하는 자동 파이프라인을 제공합니다(수동 라벨링 불필요).
- 14B MoE image‑to‑video foundation model: 텍스트 기반 인터랙션 주입 모듈을 갖춘 mixture‑of‑experts 아키텍처를 확장하여 카메라 움직임, 캐릭터 행동, 환경 동역학을 제어합니다.
- InterBench benchmark: 인터랙션 품질에 초점을 맞춘 새로운 평가 스위트로, 반응성, 시간적 일관성, 인과적 근거를 측정합니다.
- Demonstrated free‑form actions: “문을 열어”, “횃불을 그려”, “폭발을 일으켜”와 같은 명령을 생성된 게임 비디오에서 신뢰성 있게 수행할 수 있음을 보여줍니다.
Methodology
- Interactive Video Definition – 저자들은 “interactive video”를 각 프레임이 사용자 명령(텍스트, 키 입력, 마우스 이벤트)과 이전 시각적 컨텍스트에 조건화된 시퀀스로 정의합니다.
- Data Construction – 공개된 텍스트‑비디오 쌍(예: 자막이 있는 YouTube 게임플레이 클립)에서 시작해 자동 파이프라인을 실행합니다:
- 텍스트에서 행동 단서(동사, 객체)를 탐지합니다.
- 오프‑더‑쉘프 행동 위치 모델을 사용해 해당 단서를 비디오의 시간 구간과 정렬합니다.
- 명령이 직접 시각적 변화를 일으키는 인과적으로 연결된 명령‑비디오 클립을 생성합니다.
- Model Architecture – 140억 파라미터 Mixture‑of‑Experts (MoE) 백본이 단일 키프레임 이미지와 명령 토큰 시퀀스를 처리합니다. 가벼운 Interaction Injection Module이 여러 트랜스포머 레이어에 명령 임베딩을 주입하여 다음을 정밀하게 제어합니다:
- Camera motion (팬, 줌)
- Character behavior (이동, 제스처)
- Environment dynamics (객체 상태 변화, 파티클 효과)
- Training – 자동 구축된 인터랙티브 데이터셋을 사용해 비디오 재구성 손실, 시간 일관성 손실, 명령과 시각적 변화 사이의 불일치를 벌점화하는 인과 정렬 손실을 결합한 엔드‑투‑엔드 방식으로 학습합니다.
- Evaluation (InterBench) – 벤치마크는 다음을 측정합니다:
- Responsiveness (비디오가 명령을 반영하는가?)
- Temporal coherence (부드러운 전환)
- Causal fidelity (불필요한 행동이 없는가?)
Results & Findings
- High instruction fidelity: InterBench에서 Hunyuan‑GameCraft‑2는 자유형 명령을 올바르게 실행하는 성공률이 78 %에 달하며, 이전 GameCraft 베이스라인보다 약 20 % 상승했습니다.
- Temporal smoothness: 플리커와 급격한 움직임 아티팩트를 감소시켜 비디오‑스무스니스 지표에서 0.92점을 기록했으며(이전 작업 0.81 대비).
- Generalization to unseen verbs: 새로운 동작(예: “등불을 점화한다”)에도 설득력 있는 시각적 결과를 생성해 강력한 의미적 인지를 보여줍니다.
- Low annotation overhead: 자동 파이프라인으로 인간 라벨링 비용을 90 % 이상 절감해 수백만 개의 인터랙티브 클립으로 확장할 수 있습니다.
Practical Implications
- Rapid prototyping for indie developers – 팀이 간단한 텍스트 스크립트만으로 인터랙티브 게임플레이 영상을 생성할 수 있어 레벨 디자인 및 내러티브 테스트의 반복 주기가 크게 단축됩니다.
- Dynamic content generation in live services – MMO나 라이브‑옵스 게임이 “갑작스러운 폭풍이 나타난다”와 같은 컨텍스트 인식 이벤트를 손수 만든 에셋 없이도 생성할 수 있습니다.
- AI‑assisted game testing – QA 봇이 자연어 명령을 내려 게임 메커니즘의 응답을 검증함으로써 회귀 테스트를 자동화합니다.
- Educational and training simulators – 명령에 따라 즉시 시각적 피드백을 제공하는 시나리오 기반 학습 모듈을 제작할 수 있습니다.
- Cross‑modal game UI – 텍스트와 함께 마우스·키보드 신호를 지원함으로써 접근성을 위한 하이브리드 제어 방식(음성 + 마우스)이나 VR/AR 인터페이스를 구현할 수 있습니다.
Limitations & Future Work
- Domain specificity – 학습 데이터가 전형적인 3인칭 어드벤처·RPG 영상에 편중돼 있어 전략, 퍼즐 등 이색 장르에서는 성능이 떨어질 수 있습니다.
- Physical realism – 시각적으로 일관되지만 물리 제약을 강제하지 않아 물체가 떠다니는 등 불가능한 움직임이 가끔 발생합니다.
- Scalability of real‑time inference – 14B MoE 모델은 여전히 대용량 GPU 메모리를 요구해 온‑디바이스 배포가 제한됩니다.
- Future directions: 데이터셋을 더 다양한 게임 장르로 확장하고, 물리 엔진을 통합해 제약을 고려한 생성으로 전환하며, MoE를 경량 모델로 증류해 실시간 인터랙티브 애플리케이션에 적용하는 것이 제안됩니다.
Authors
- Junshu Tang
- Jiacheng Liu
- Jiaqi Li
- Longhuang Wu
- Haoyu Yang
- Penghao Zhao
- Siruis Gong
- Xiang Yuan
- Shuai Shao
- Qinglin Lu
Paper Information
- arXiv ID: 2511.23429v1
- Categories: cs.CV
- Published: November 28, 2025
- PDF: Download PDF