【论文】Web World Models

发布: 3天前 (2025年12月30日 GMT+8 02:31)

7 min read

原文: arXiv

Source: arXiv - 2512.23676v1

Overview

本文介绍了 Web World Models (WWMs) ——一种混合方法，将传统网页后端的可靠性与大型语言模型（LLMs）的创造性灵活性相结合。通过在普通网页代码（数据库、API、类型化接口）中编码虚拟世界的“物理”，并让 LLMs 生成叙事和高层决策，作者展示了一种可扩展的方式来构建持久、可控且开放式的语言代理环境。

关键贡献

中间层架构：将确定性的 Web 堆栈逻辑与生成式 LLM 输出相结合，避免纯规则驱动世界的脆弱性和完全生成式仿真的混乱。
类型化潜在状态：将世界状态定义为显式的 Web 接口（REST 端点、GraphQL 架构等），实现代码与语言模型之间的类型安全交互。
确定性生成管线：使用 LLM 生成结构化、可重复的内容（例如地图瓦片、故事情节），这些内容可以像其他 Web 资源一样被缓存和查询。
多样化原型套件：实现了四个 WWMs，涵盖从基于地理的无限旅行图册、科幻星系探索器、百科知识库到类似游戏的仿真。
设计指南：提炼出实用原则——规则分离、类型化状态、确定性生成，供开发者在构建自己的代理中心世界时采用。

方法论

将世界状态视为 Web 服务
- 作者将每个实体（地点、角色、物品）建模为通过标准 Web API（REST/GraphQL）公开的资源。
- 业务逻辑（移动规则、库存约束、物理）位于服务器端代码（Python/Node.js）和后端数据库中，确保一致性。
LLM 驱动的叙事层
- LLM 接收一个提示，其中包括当前的类型化状态（例如，代理位置的 JSON 快照）和一个高层目标。
- 模型返回一个 结构化 响应（动作意图 + 叙事文本）。意图被解析并路由到 Web API，后者更新潜在状态。
确定性生成
- 为了保持世界“无限”且可复现，系统使用从请求的位置或故事节点派生的确定性哈希来为 LLM 设定种子。
- 相同的种子始终产生相同的生成描述，从而支持缓存和离线回放。
原型构建
- 在统一技术栈（Docker 化服务、PostgreSQL、FastAPI、OpenAI 的 GPT‑4）上构建了四个领域。
- 每个原型展示了开放性与规则执行之间的不同平衡（例如，地图遵循真实世界地理，而星系探索器遵循虚构物理）。

结果与发现

一致性: 在 10,000 次模拟代理步骤中，由于代码强制的物理层，规则违规（例如穿越不可通行地形）降至 <0.1%。
可扩展性: 确定性生成方法使无限地图能够处理 >1 M 唯一位置请求，且延迟不明显（平均 120 ms）。
代理性能: 配备 WWMs 的语言代理在导航和信息检索任务上比使用纯生成世界的代理快 30‑45%，因为状态查询更可靠。
开发者反馈: 早期采用者报告说，类型化的 API 合约在集成新 LLM 提示时显著减少了调试时间。

实际意义

快速原型化虚拟助理：公司可以快速搭建“knowledge worlds”（例如产品目录、内部文档），在其中 LLM 能安全地查询和补充信息，避免产生幻觉。
游戏开发：独立工作室可以利用 WWMs 创建程序生成的地图，这些地图仍遵守游戏规则（碰撞、资源限制），从而减少手工关卡设计的工作量。
模拟即服务：需要沙盒环境来训练自主代理（例如物流机器人）的企业可以托管基于网页的世界，在保证安全约束的同时提供丰富多样的场景。
互操作性：由于世界状态通过标准 Web API 暴露，现有工具（Swagger、Postman、CI 流水线）可以直接复用，降低了与 CI/CD 和监控体系集成的门槛。

限制与未来工作

LLM 依赖：叙事和决策建议的质量仍然取决于底层语言模型；有偏见或低质量的输出可能会传播到世界中。
状态爆炸：虽然确定性生成减轻了存储成本，但极大的世界仍可能需要复杂的缓存和分片策略。
实时动态受限：当前原型侧重于回合制更新；将 WWMs 扩展到高频率、实时仿真（例如多人游戏）仍是一个未解决的挑战。
未来方向：作者计划探索层次化世界构成（嵌套 WWMs），集成能够修改规则层的强化学习代理，并评估跨模态扩展（例如与网页状态关联的视觉渲染）。

作者

Jichen Feng
Yifan Zhang
Chenggong Zhang
Yifu Lu
Shilong Liu
Mengdi Wang

论文信息

arXiv ID: 2512.23676v1
分类: cs.AI, cs.CL, cs.CV
发布时间: 2025年12月29日
PDF: Download PDF

【论文】Web World Models

Overview

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] CubeBench: 诊断交互式、长时程空间推理在部分观测下

[Paper] Cube Bench：MLLMs空间视觉推理基准

[Paper] 生成式数字孪生：视觉‑语言仿真模型用于可执行工业系统

[Paper] SpaceTimePilot: 生成式渲染跨时空的动态场景