[论文] 工作流世界：将 World Models 引入企业系统的基准

发布: 1周前 (2026年1月30日 GMT+8 02:51)

7 分钟阅读

原文: arXiv

Source: arXiv - 2601.22130v1

概述

本文介绍了 World of Workflows (WoW)，一个基于 ServiceNow 的真实沙盒环境，模拟大型企业中隐藏且相互依赖的流程。通过将该环境与一个包含 234 项任务的基准（WoW‑bench）相结合，作者揭示了当今前沿大型语言模型（LLMs）的一个关键盲点：它们无法预见并遵守不透明企业系统内部操作的连锁副作用。

关键贡献

WoW 环境: 一个功能完整的 ServiceNow 实例，包含 >4,000 条业务规则和 55 条活跃的隐藏工作流，驱动跨多个数据库的状态变化。
WoW‑bench 基准: 234 项精心设计的任务，要求代理 (a) 完成受限的用户请求，和 (b) 对底层系统动态进行建模，以避免静默违规。
实证诊断: 系统性评估了多种最先进的 LLM 代理，揭示了普遍存在的“动态盲点”——代理经常错过不可见的连锁效应。
设计洞见: 主张一种新范式，即企业代理必须 学习并模拟隐藏的系统动态，而不仅仅依赖表层观察。
开源发布: 完整代码、环境搭建脚本和评估流水线已在 GitHub 上公开。

方法论

环境构建 – 作者构建了一个 ServiceNow 租户，填充了真实的业务对象（事件、变更请求、CMDB 条目），并通过成千上万的声明式业务规则和工作流自动化将它们连接起来，这些规则和自动化对外部代理不可直接观察。
任务生成 – 每个基准任务模拟典型的员工请求（例如，“重置用户的 VPN 访问”），但特意设计为正确答案取决于隐藏的工作流结果（例如，可能拒绝请求的下游审批流程）。
代理接口 – 大语言模型代理通过受限的 API（搜索、读取、写入）与 WoW 交互，模拟真实聊天机器人所拥有的受限 UI。未提供内部状态转储。
评估指标
- 任务成功率 – 代理是否实现了可见目标？
- 约束违规率 – 代理是否触发了任何隐藏规则违规（由环境事后检测）？
- 动态预测准确率 – 在给定动作的情况下，预测下一个隐藏状态转移的能力。
模型基线 – 本研究测试了几种主流大语言模型（GPT‑4、Claude‑2、Llama‑2‑70B），包括零样本和少样本提示方式，同时也提供了一个简单的基于规则的基线。

结果与发现

模型	任务成功率	约束违规	动态预测
GPT‑4（零样本）	58 %	42 %	31 %
GPT‑4（少样本）	63 %	38 %	35 %
Claude‑2	55 %	45 %	28 %
Llama‑2‑70B	48 %	51 %	22 %
基于规则的基线	34 %	62 %	15 %

动态盲点： 即使是最强大的大型语言模型，也在约 40 % 的尝试中遗漏了隐藏的副作用，导致在真实企业环境中代价高昂的静默策略违规。
基于真实模拟的帮助： 添加轻量级的“世界模型”模块来预测隐藏状态转移，使动态预测提升约 10 %，违规率降低约 5 个百分点。
少样本提示提供边际收益： 提供工作流推理示例能够适度提升成功率，但并未根本解决可观测性不足的问题。
企业聊天机器人需要内部模拟器： 在 ServiceNow、Salesforce 或 SAP 等平台上部署基于 LLM 的助理时，应包含一个学习平台业务规则并在提交更改前运行“假设”模拟的组件。
安全优先的部署流水线： 组织必须配置隐藏状态监控（审计日志、规则引擎钩子），以捕捉 LLM 代理可能导致的静默违规。
开发者工具： WoW 仓库可以作为测试自定义提示策略、在工作流日志上微调，或集成人类反馈强化学习（RLHF）回路以奖励正确动态预测的沙盒。
成本节约： 通过及早捕获连锁错误，企业可以避免下游的工单激增、合规违规以及通常因“够好”自动化而产生的昂贵回滚。

限制与未来工作

工作流范围： 虽然 55 个工作流已经相当可观，但真实企业往往运行数百个；将基准扩展到更大的规则集仍是一个未解决的挑战。
静态业务规则： 当前环境假设规则执行是确定性的；未来版本应加入概率性结果和基于时间的触发器。
人机交互评估： 本研究聚焦于完全自主的代理；评估 LLM 助手与人工操作员的协作将拓宽其适用性。
学习动态模型： 论文指出需要进行世界模型学习，但未提供具体的训练流水线；后续工作可以探索从审计日志中进行自监督的动态预测。

作者

Lakshya Gupta
Litao Li
Yizhe Liu
Sriram Ganapathi Subramanian
Kaheer Suleman
Zichen Zhang
Haoye Lu
Sumit Pasupalak

论文信息

arXiv ID: 2601.22130v1
分类: cs.AI, cs.SE
发布时间: 2026年1月29日
PDF: 下载 PDF

[论文] 工作流世界：将 World Models 引入企业系统的基准

概述

关键贡献

方法论

结果与发现

限制与未来工作

作者

论文信息

相关文章

[Paper] VideoGPA：蒸馏几何先验以实现3D一致的视频生成

[论文] 共享自治范式中信念与策略学习的端到端优化

[Paper] 解耦扩散采样用于函数空间的逆问题

[Paper] FOCUS：DLLMs 知道如何驯服它们的计算瓶颈