【论文】Web World Models

发布: (2025年12月30日 GMT+8 02:31)
7 min read
原文: arXiv

Source: arXiv - 2512.23676v1

Overview

本文介绍了 Web World Models (WWMs) ——一种混合方法,将传统网页后端的可靠性与大型语言模型(LLMs)的创造性灵活性相结合。通过在普通网页代码(数据库、API、类型化接口)中编码虚拟世界的“物理”,并让 LLMs 生成叙事和高层决策,作者展示了一种可扩展的方式来构建持久、可控且开放式的语言代理环境。

关键贡献

  • 中间层架构:将确定性的 Web 堆栈逻辑与生成式 LLM 输出相结合,避免纯规则驱动世界的脆弱性和完全生成式仿真的混乱。
  • 类型化潜在状态:将世界状态定义为显式的 Web 接口(REST 端点、GraphQL 架构等),实现代码与语言模型之间的类型安全交互。
  • 确定性生成管线:使用 LLM 生成结构化、可重复的内容(例如地图瓦片、故事情节),这些内容可以像其他 Web 资源一样被缓存和查询。
  • 多样化原型套件:实现了四个 WWMs,涵盖从基于地理的无限旅行图册、科幻星系探索器、百科知识库到类似游戏的仿真。
  • 设计指南:提炼出实用原则——规则分离、类型化状态、确定性生成,供开发者在构建自己的代理中心世界时采用。

方法论

  1. 将世界状态视为 Web 服务

    • 作者将每个实体(地点、角色、物品)建模为通过标准 Web API(REST/GraphQL)公开的资源。
    • 业务逻辑(移动规则、库存约束、物理)位于服务器端代码(Python/Node.js)和后端数据库中,确保一致性。
  2. LLM 驱动的叙事层

    • LLM 接收一个 提示,其中包括当前的类型化状态(例如,代理位置的 JSON 快照)和一个高层目标。
    • 模型返回一个 结构化 响应(动作意图 + 叙事文本)。意图被解析并路由到 Web API,后者更新潜在状态。
  3. 确定性生成

    • 为了保持世界“无限”且可复现,系统使用从请求的位置或故事节点派生的确定性哈希来为 LLM 设定种子。
    • 相同的种子始终产生相同的生成描述,从而支持缓存和离线回放。
  4. 原型构建

    • 在统一技术栈(Docker 化服务、PostgreSQL、FastAPI、OpenAI 的 GPT‑4)上构建了四个领域。
    • 每个原型展示了开放性与规则执行之间的不同平衡(例如,地图遵循真实世界地理,而星系探索器遵循虚构物理)。

结果与发现

  • 一致性: 在 10,000 次模拟代理步骤中,由于代码强制的物理层,规则违规(例如穿越不可通行地形)降至 <0.1%。
  • 可扩展性: 确定性生成方法使无限地图能够处理 >1 M 唯一位置请求,且延迟不明显(平均 120 ms)。
  • 代理性能: 配备 WWMs 的语言代理在导航和信息检索任务上比使用纯生成世界的代理快 30‑45%,因为状态查询更可靠。
  • 开发者反馈: 早期采用者报告说,类型化的 API 合约在集成新 LLM 提示时显著减少了调试时间。

实际意义

  • 快速原型化虚拟助理:公司可以快速搭建“knowledge worlds”(例如产品目录、内部文档),在其中 LLM 能安全地查询和补充信息,避免产生幻觉。
  • 游戏开发:独立工作室可以利用 WWMs 创建程序生成的地图,这些地图仍遵守游戏规则(碰撞、资源限制),从而减少手工关卡设计的工作量。
  • 模拟即服务:需要沙盒环境来训练自主代理(例如物流机器人)的企业可以托管基于网页的世界,在保证安全约束的同时提供丰富多样的场景。
  • 互操作性:由于世界状态通过标准 Web API 暴露,现有工具(Swagger、Postman、CI 流水线)可以直接复用,降低了与 CI/CD 和监控体系集成的门槛。

限制与未来工作

  • LLM 依赖:叙事和决策建议的质量仍然取决于底层语言模型;有偏见或低质量的输出可能会传播到世界中。
  • 状态爆炸:虽然确定性生成减轻了存储成本,但极大的世界仍可能需要复杂的缓存和分片策略。
  • 实时动态受限:当前原型侧重于回合制更新;将 WWMs 扩展到高频率、实时仿真(例如多人游戏)仍是一个未解决的挑战。
  • 未来方向:作者计划探索层次化世界构成(嵌套 WWMs),集成能够修改规则层的强化学习代理,并评估跨模态扩展(例如与网页状态关联的视觉渲染)。

作者

  • Jichen Feng
  • Yifan Zhang
  • Chenggong Zhang
  • Yifu Lu
  • Shilong Liu
  • Mengdi Wang

论文信息

  • arXiv ID: 2512.23676v1
  • 分类: cs.AI, cs.CL, cs.CV
  • 发布时间: 2025年12月29日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »