[论文] 工作流世界:将 World Models 引入企业系统的基准

发布: (2026年1月30日 GMT+8 02:51)
7 分钟阅读
原文: arXiv

Source: arXiv - 2601.22130v1

概述

本文介绍了 World of Workflows (WoW),一个基于 ServiceNow 的真实沙盒环境,模拟大型企业中隐藏且相互依赖的流程。通过将该环境与一个包含 234 项任务的基准(WoW‑bench)相结合,作者揭示了当今前沿大型语言模型(LLMs)的一个关键盲点:它们无法预见并遵守不透明企业系统内部操作的连锁副作用。

关键贡献

  • WoW 环境: 一个功能完整的 ServiceNow 实例,包含 >4,000 条业务规则和 55 条活跃的隐藏工作流,驱动跨多个数据库的状态变化。
  • WoW‑bench 基准: 234 项精心设计的任务,要求代理 (a) 完成受限的用户请求,和 (b) 对底层系统动态进行建模,以避免静默违规。
  • 实证诊断: 系统性评估了多种最先进的 LLM 代理,揭示了普遍存在的“动态盲点”——代理经常错过不可见的连锁效应。
  • 设计洞见: 主张一种新范式,即企业代理必须 学习并模拟隐藏的系统动态,而不仅仅依赖表层观察。
  • 开源发布: 完整代码、环境搭建脚本和评估流水线已在 GitHub 上公开。

方法论

  1. 环境构建 – 作者构建了一个 ServiceNow 租户,填充了真实的业务对象(事件、变更请求、CMDB 条目),并通过成千上万的声明式业务规则和工作流自动化将它们连接起来,这些规则和自动化对外部代理不可直接观察。
  2. 任务生成 – 每个基准任务模拟典型的员工请求(例如,“重置用户的 VPN 访问”),但特意设计为正确答案取决于隐藏的工作流结果(例如,可能拒绝请求的下游审批流程)。
  3. 代理接口 – 大语言模型代理通过受限的 API(搜索、读取、写入)与 WoW 交互,模拟真实聊天机器人所拥有的受限 UI。未提供内部状态转储。
  4. 评估指标
    • 任务成功率 – 代理是否实现了可见目标?
    • 约束违规率 – 代理是否触发了任何隐藏规则违规(由环境事后检测)?
    • 动态预测准确率 – 在给定动作的情况下,预测下一个隐藏状态转移的能力。
  5. 模型基线 – 本研究测试了几种主流大语言模型(GPT‑4、Claude‑2、Llama‑2‑70B),包括零样本和少样本提示方式,同时也提供了一个简单的基于规则的基线。

结果与发现

模型任务成功率约束违规动态预测
GPT‑4(零样本)58 %42 %31 %
GPT‑4(少样本)63 %38 %35 %
Claude‑255 %45 %28 %
Llama‑2‑70B48 %51 %22 %
基于规则的基线34 %62 %15 %
  • 动态盲点: 即使是最强大的大型语言模型,也在约 40 % 的尝试中遗漏了隐藏的副作用,导致在真实企业环境中代价高昂的静默策略违规。

  • 基于真实模拟的帮助: 添加轻量级的“世界模型”模块来预测隐藏状态转移,使动态预测提升约 10 %,违规率降低约 5 个百分点。

  • 少样本提示提供边际收益: 提供工作流推理示例能够适度提升成功率,但并未根本解决可观测性不足的问题。

  • 企业聊天机器人需要内部模拟器: 在 ServiceNow、Salesforce 或 SAP 等平台上部署基于 LLM 的助理时,应包含一个学习平台业务规则并在提交更改前运行“假设”模拟的组件。

  • 安全优先的部署流水线: 组织必须配置隐藏状态监控(审计日志、规则引擎钩子),以捕捉 LLM 代理可能导致的静默违规。

  • 开发者工具: WoW 仓库可以作为测试自定义提示策略、在工作流日志上微调,或集成人类反馈强化学习(RLHF)回路以奖励正确动态预测的沙盒。

  • 成本节约: 通过及早捕获连锁错误,企业可以避免下游的工单激增、合规违规以及通常因“够好”自动化而产生的昂贵回滚。

限制与未来工作

  • 工作流范围: 虽然 55 个工作流已经相当可观,但真实企业往往运行数百个;将基准扩展到更大的规则集仍是一个未解决的挑战。
  • 静态业务规则: 当前环境假设规则执行是确定性的;未来版本应加入概率性结果和基于时间的触发器。
  • 人机交互评估: 本研究聚焦于完全自主的代理;评估 LLM 助手与人工操作员的协作将拓宽其适用性。
  • 学习动态模型: 论文指出需要进行世界模型学习,但未提供具体的训练流水线;后续工作可以探索从审计日志中进行自监督的动态预测。

作者

  • Lakshya Gupta
  • Litao Li
  • Yizhe Liu
  • Sriram Ganapathi Subramanian
  • Kaheer Suleman
  • Zichen Zhang
  • Haoye Lu
  • Sumit Pasupalak

论文信息

  • arXiv ID: 2601.22130v1
  • 分类: cs.AI, cs.SE
  • 发布时间: 2026年1月29日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »