Trillion Labs,移动世界模型 ‘gWorld-32B’ 公开… 基于代码的画面预测
发布: (2026年2月9日 GMT+8 10:07)
3 分钟阅读
原文: Platum
Source: Platum

概览
AI 模型创业公司 Trillion Labs 开发了在移动环境下模拟用户行为结果的世界模型 gWorld‑32B。这是首次公开专为移动环境打造的世界模型。
技术细节
- 世界模型:AI 代理在执行特定行为前,对其结果进行视觉和逻辑层面的模拟技术。
- gWorld‑32B:基于用户的触摸输入,实时预测并再现后续的屏幕状态,专用于移动环境。
- 传统的世界模型以像素级别生成屏幕图像,导致文字模糊、形状失真,而 gWorld‑32B 以 可执行的网页代码(HTML·CSS) 形式进行预测。
- 它不发送屏幕截图,而是生成相当于设计图的代码,推动实时渲染。
- 将渲染失败率降低至 1 % 以下,并确保文本和图标保持无失真的高精度。
性能
- 参数规模超过 50 倍的 Meta Llama‑4‑402B 在 GUI 预测性能上被超越。
- 在韩国移动应用操作性能评估指标 KApps 中,实现了 Zero‑shot(零样本)性能,即无需额外微调即可直接运行,验证了对国内移动应用生态和 UI 结构的适用性。
应用场景
gWorld‑32B 可用于以下领域:
- 移动代理
- 应用自动化测试
- 客户服务自动化
- 整体数字服务运营自动化
公司背景
- Trillion Labs 由曾是 Naver HyperCLOVA X 核心开发成员的 Shin Jae‑shin 于 2024 年创立。
- 成立仅一年,即从零开始(from scratch)开发并公开了 70 B 规模的 LLM,随后推出了视觉语言模型 Trillion‑LLava 与本次的移动世界模型。
- 正在构建涵盖大规模模型、多模态、世界模型的完整技术栈。
“超越问答的 AI,直接在复杂的数字与物理环境中行动的执行型 AI 时代已经到来。” – Shin Jae‑min CEO