[Paper] Hunyuan-GameCraft-2: 指令跟随的交互式游戏世界模型

发布: 1周前 (2025年11月29日 GMT+8 02:26)

6 min read

原文: arXiv

Source: arXiv - 2511.23429v1

Overview

Hunyuan‑GameCraft‑2 将生成式游戏世界建模的范围从静态场景合成拓展到让用户通过自然语言指令、键盘或鼠标输入来引导基于视频的游戏模拟。通过将大规模、无结构的文本‑视频对转化为因果对齐的交互式数据，作者展示了一种更灵活、低成本的方式来创建动态、玩家驱动的游戏内容。

Instruction‑driven interaction：用自由形式的语言、鼠标和键盘信号取代僵硬的仅键盘控制方案，实现更丰富的游戏玩法操作。
Automated interactive dataset pipeline：将海量文本‑视频语料库转换为因果对齐的“交互视频”对，无需人工标注。
14B MoE image‑to‑video foundation model：在混合专家（Mixture‑of‑Experts）架构上扩展了一个文本驱动的交互注入模块，能够控制相机运动、角色动作和环境动态。
InterBench benchmark：一个全新的评估套件，侧重于交互质量，衡量响应性、时间连贯性和因果根基。
Demonstrated free‑form actions：展示模型能够可靠执行诸如“打开门”“画一把火把”或“触发爆炸”等指令，在生成的游戏视频中实现这些动作。

Interactive Video Definition – 作者将“交互视频”形式化为一个序列，其中每一帧都受用户指令（文本、按键或鼠标事件）以及前一帧视觉上下文的条件约束。
Data Construction – 从公开的文本‑视频对（例如带字幕的 YouTube 游戏剪辑）出发，运行自动化流水线：
- 检测文本中的动作线索（动词、对象）。
- 使用现成的动作定位模型将这些线索与视频中的时间段对齐。
- 生成因果关联的指令‑视频片段（指令直接导致视觉变化）。
Model Architecture – 一个 140 亿参数的 MoE 主干处理单张关键帧图像和一系列指令 token。轻量级 Interaction Injection Module 在多个 Transformer 层注入指令嵌入，实现对以下方面的细粒度控制：
- Camera motion（平移、缩放）。
- Character behavior（移动、手势）。
- Environment dynamics（对象状态变化、粒子特效）。
Training – 在自动构建的交互数据集上端到端训练模型，使用视频重建损失、时间一致性损失以及因果对齐损失（惩罚指令与视觉变化不匹配的情况）。
Evaluation (InterBench) – 基准测试衡量：
- Responsiveness（视频是否反映指令）。
- Temporal coherence（平滑过渡）。
- Causal fidelity（无虚假动作）。

High instruction fidelity：在 InterBench 上，Hunyuan‑GameCraft‑2 正确执行自由形式指令的成功率达到 78 %，比之前的 GameCraft 基线提升约 20 %。
Temporal smoothness：模型降低了闪烁和突兀运动伪影，在视频平滑度指标上得分 0.92（对比之前工作 0.81）。
Generalization to unseen verbs：即使面对新颖动作（如“点燃灯笼”），系统也能生成合理的视觉结果，表明语义根基强大。
Low annotation overhead：自动化流水线将人工标注成本降低超过 90 %，使得可扩展至数百万交互片段。

Rapid prototyping for indie developers – 团队可以从简短的文本脚本生成交互式游戏画面，加速关卡设计和叙事测试的迭代。
Dynamic content generation in live services – MMO 或 live‑ops 游戏可利用该模型生成上下文感知的事件（例如“突如其来的暴风雨出现”），无需手工制作资产。
AI‑assisted game testing – QA 机器人可以发出自然语言指令来验证游戏机制的响应，自动化回归测试。
Educational and training simulators – 基于指令的视频生成可用于情景式学习模块，学习者自行决定动作并即时看到视觉反馈。
Cross‑modal game UI – 通过同时支持文本、鼠标和键盘信号，开发者可以构建混合控制方案（语音 + 鼠标），提升可访问性或用于 VR/AR 界面。

Domain specificity – 训练数据高度偏向典型的第三人称冒险或 RPG 画面；对策略、解谜等异类体裁的表现可能下降。
Physical realism – 虽然视觉连贯，但模型未强制物理约束，偶尔会出现不可能的运动（如漂浮的物体）。
Scalability of real‑time inference – 14B MoE 模型仍需大量 GPU 内存，限制了端侧部署。
Future directions：作者提出的后续工作包括扩展数据集覆盖更多游戏体裁、融合物理引擎实现约束感知生成，以及将 MoE 蒸馏为更轻量模型以支持实时交互应用。