Trillion Labs，移动世界模型 ‘gWorld-32B’ 公开… 基于代码的画面预测

发布: 3天前 (2026年2月9日 GMT+8 10:07)

3 分钟阅读

原文: Platum

Source: Platum

概览

AI 模型创业公司 Trillion Labs 开发了在移动环境下模拟用户行为结果的世界模型 gWorld‑32B。这是首次公开专为移动环境打造的世界模型。

世界模型：AI 代理在执行特定行为前，对其结果进行视觉和逻辑层面的模拟技术。
gWorld‑32B：基于用户的触摸输入，实时预测并再现后续的屏幕状态，专用于移动环境。
- 传统的世界模型以像素级别生成屏幕图像，导致文字模糊、形状失真，而 gWorld‑32B 以 可执行的网页代码（HTML·CSS） 形式进行预测。
- 它不发送屏幕截图，而是生成相当于设计图的代码，推动实时渲染。
- 将渲染失败率降低至 1 % 以下，并确保文本和图标保持无失真的高精度。

参数规模超过 50 倍的 Meta Llama‑4‑402B 在 GUI 预测性能上被超越。
在韩国移动应用操作性能评估指标 KApps 中，实现了 Zero‑shot（零样本）性能，即无需额外微调即可直接运行，验证了对国内移动应用生态和 UI 结构的适用性。

gWorld‑32B 可用于以下领域：

Trillion Labs 由曾是 Naver HyperCLOVA X 核心开发成员的 Shin Jae‑shin 于 2024 年创立。
成立仅一年，即从零开始（from scratch）开发并公开了 70 B 规模的 LLM，随后推出了视觉语言模型 Trillion‑LLava 与本次的移动世界模型。
正在构建涵盖大规模模型、多模态、世界模型的完整技术栈。

“超越问答的 AI，直接在复杂的数字与物理环境中行动的执行型 AI 时代已经到来。” – Shin Jae‑min CEO