【论文】Web World Models
发布: (2025年12月30日 GMT+8 02:31)
7 min read
原文: arXiv
Source: arXiv - 2512.23676v1
Overview
本文介绍了 Web World Models (WWMs) ——一种混合方法,将传统网页后端的可靠性与大型语言模型(LLMs)的创造性灵活性相结合。通过在普通网页代码(数据库、API、类型化接口)中编码虚拟世界的“物理”,并让 LLMs 生成叙事和高层决策,作者展示了一种可扩展的方式来构建持久、可控且开放式的语言代理环境。
关键贡献
- 中间层架构:将确定性的 Web 堆栈逻辑与生成式 LLM 输出相结合,避免纯规则驱动世界的脆弱性和完全生成式仿真的混乱。
- 类型化潜在状态:将世界状态定义为显式的 Web 接口(REST 端点、GraphQL 架构等),实现代码与语言模型之间的类型安全交互。
- 确定性生成管线:使用 LLM 生成结构化、可重复的内容(例如地图瓦片、故事情节),这些内容可以像其他 Web 资源一样被缓存和查询。
- 多样化原型套件:实现了四个 WWMs,涵盖从基于地理的无限旅行图册、科幻星系探索器、百科知识库到类似游戏的仿真。
- 设计指南:提炼出实用原则——规则分离、类型化状态、确定性生成,供开发者在构建自己的代理中心世界时采用。
方法论
-
将世界状态视为 Web 服务
- 作者将每个实体(地点、角色、物品)建模为通过标准 Web API(REST/GraphQL)公开的资源。
- 业务逻辑(移动规则、库存约束、物理)位于服务器端代码(Python/Node.js)和后端数据库中,确保一致性。
-
LLM 驱动的叙事层
- LLM 接收一个 提示,其中包括当前的类型化状态(例如,代理位置的 JSON 快照)和一个高层目标。
- 模型返回一个 结构化 响应(动作意图 + 叙事文本)。意图被解析并路由到 Web API,后者更新潜在状态。
-
确定性生成
- 为了保持世界“无限”且可复现,系统使用从请求的位置或故事节点派生的确定性哈希来为 LLM 设定种子。
- 相同的种子始终产生相同的生成描述,从而支持缓存和离线回放。
-
原型构建
- 在统一技术栈(Docker 化服务、PostgreSQL、FastAPI、OpenAI 的 GPT‑4)上构建了四个领域。
- 每个原型展示了开放性与规则执行之间的不同平衡(例如,地图遵循真实世界地理,而星系探索器遵循虚构物理)。
结果与发现
- 一致性: 在 10,000 次模拟代理步骤中,由于代码强制的物理层,规则违规(例如穿越不可通行地形)降至 <0.1%。
- 可扩展性: 确定性生成方法使无限地图能够处理 >1 M 唯一位置请求,且延迟不明显(平均 120 ms)。
- 代理性能: 配备 WWMs 的语言代理在导航和信息检索任务上比使用纯生成世界的代理快 30‑45%,因为状态查询更可靠。
- 开发者反馈: 早期采用者报告说,类型化的 API 合约在集成新 LLM 提示时显著减少了调试时间。
实际意义
- 快速原型化虚拟助理:公司可以快速搭建“knowledge worlds”(例如产品目录、内部文档),在其中 LLM 能安全地查询和补充信息,避免产生幻觉。
- 游戏开发:独立工作室可以利用 WWMs 创建程序生成的地图,这些地图仍遵守游戏规则(碰撞、资源限制),从而减少手工关卡设计的工作量。
- 模拟即服务:需要沙盒环境来训练自主代理(例如物流机器人)的企业可以托管基于网页的世界,在保证安全约束的同时提供丰富多样的场景。
- 互操作性:由于世界状态通过标准 Web API 暴露,现有工具(Swagger、Postman、CI 流水线)可以直接复用,降低了与 CI/CD 和监控体系集成的门槛。
限制与未来工作
- LLM 依赖:叙事和决策建议的质量仍然取决于底层语言模型;有偏见或低质量的输出可能会传播到世界中。
- 状态爆炸:虽然确定性生成减轻了存储成本,但极大的世界仍可能需要复杂的缓存和分片策略。
- 实时动态受限:当前原型侧重于回合制更新;将 WWMs 扩展到高频率、实时仿真(例如多人游戏)仍是一个未解决的挑战。
- 未来方向:作者计划探索层次化世界构成(嵌套 WWMs),集成能够修改规则层的强化学习代理,并评估跨模态扩展(例如与网页状态关联的视觉渲染)。
作者
- Jichen Feng
- Yifan Zhang
- Chenggong Zhang
- Yifu Lu
- Shilong Liu
- Mengdi Wang
论文信息
- arXiv ID: 2512.23676v1
- 分类: cs.AI, cs.CL, cs.CV
- 发布时间: 2025年12月29日
- PDF: Download PDF