[论文] 工作流世界:将 World Models 引入企业系统的基准
Source: arXiv - 2601.22130v1
概述
本文介绍了 World of Workflows (WoW),一个基于 ServiceNow 的真实沙盒环境,模拟大型企业中隐藏且相互依赖的流程。通过将该环境与一个包含 234 项任务的基准(WoW‑bench)相结合,作者揭示了当今前沿大型语言模型(LLMs)的一个关键盲点:它们无法预见并遵守不透明企业系统内部操作的连锁副作用。
关键贡献
- WoW 环境: 一个功能完整的 ServiceNow 实例,包含 >4,000 条业务规则和 55 条活跃的隐藏工作流,驱动跨多个数据库的状态变化。
- WoW‑bench 基准: 234 项精心设计的任务,要求代理 (a) 完成受限的用户请求,和 (b) 对底层系统动态进行建模,以避免静默违规。
- 实证诊断: 系统性评估了多种最先进的 LLM 代理,揭示了普遍存在的“动态盲点”——代理经常错过不可见的连锁效应。
- 设计洞见: 主张一种新范式,即企业代理必须 学习并模拟隐藏的系统动态,而不仅仅依赖表层观察。
- 开源发布: 完整代码、环境搭建脚本和评估流水线已在 GitHub 上公开。
方法论
- 环境构建 – 作者构建了一个 ServiceNow 租户,填充了真实的业务对象(事件、变更请求、CMDB 条目),并通过成千上万的声明式业务规则和工作流自动化将它们连接起来,这些规则和自动化对外部代理不可直接观察。
- 任务生成 – 每个基准任务模拟典型的员工请求(例如,“重置用户的 VPN 访问”),但特意设计为正确答案取决于隐藏的工作流结果(例如,可能拒绝请求的下游审批流程)。
- 代理接口 – 大语言模型代理通过受限的 API(搜索、读取、写入)与 WoW 交互,模拟真实聊天机器人所拥有的受限 UI。未提供内部状态转储。
- 评估指标
- 任务成功率 – 代理是否实现了可见目标?
- 约束违规率 – 代理是否触发了任何隐藏规则违规(由环境事后检测)?
- 动态预测准确率 – 在给定动作的情况下,预测下一个隐藏状态转移的能力。
- 模型基线 – 本研究测试了几种主流大语言模型(GPT‑4、Claude‑2、Llama‑2‑70B),包括零样本和少样本提示方式,同时也提供了一个简单的基于规则的基线。
结果与发现
| 模型 | 任务成功率 | 约束违规 | 动态预测 |
|---|---|---|---|
| GPT‑4(零样本) | 58 % | 42 % | 31 % |
| GPT‑4(少样本) | 63 % | 38 % | 35 % |
| Claude‑2 | 55 % | 45 % | 28 % |
| Llama‑2‑70B | 48 % | 51 % | 22 % |
| 基于规则的基线 | 34 % | 62 % | 15 % |
-
动态盲点: 即使是最强大的大型语言模型,也在约 40 % 的尝试中遗漏了隐藏的副作用,导致在真实企业环境中代价高昂的静默策略违规。
-
基于真实模拟的帮助: 添加轻量级的“世界模型”模块来预测隐藏状态转移,使动态预测提升约 10 %,违规率降低约 5 个百分点。
-
少样本提示提供边际收益: 提供工作流推理示例能够适度提升成功率,但并未根本解决可观测性不足的问题。
-
企业聊天机器人需要内部模拟器: 在 ServiceNow、Salesforce 或 SAP 等平台上部署基于 LLM 的助理时,应包含一个学习平台业务规则并在提交更改前运行“假设”模拟的组件。
-
安全优先的部署流水线: 组织必须配置隐藏状态监控(审计日志、规则引擎钩子),以捕捉 LLM 代理可能导致的静默违规。
-
开发者工具: WoW 仓库可以作为测试自定义提示策略、在工作流日志上微调,或集成人类反馈强化学习(RLHF)回路以奖励正确动态预测的沙盒。
-
成本节约: 通过及早捕获连锁错误,企业可以避免下游的工单激增、合规违规以及通常因“够好”自动化而产生的昂贵回滚。
限制与未来工作
- 工作流范围: 虽然 55 个工作流已经相当可观,但真实企业往往运行数百个;将基准扩展到更大的规则集仍是一个未解决的挑战。
- 静态业务规则: 当前环境假设规则执行是确定性的;未来版本应加入概率性结果和基于时间的触发器。
- 人机交互评估: 本研究聚焦于完全自主的代理;评估 LLM 助手与人工操作员的协作将拓宽其适用性。
- 学习动态模型: 论文指出需要进行世界模型学习,但未提供具体的训练流水线;后续工作可以探索从审计日志中进行自监督的动态预测。
作者
- Lakshya Gupta
- Litao Li
- Yizhe Liu
- Sriram Ganapathi Subramanian
- Kaheer Suleman
- Zichen Zhang
- Haoye Lu
- Sumit Pasupalak
论文信息
- arXiv ID: 2601.22130v1
- 分类: cs.AI, cs.SE
- 发布时间: 2026年1月29日
- PDF: 下载 PDF