[Paper] 通过分步和回滚支持的操作编排实现复杂文档工作流自动化

发布: 2个月前 (2025年12月4日 GMT+8 12:34)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.04445v1

请提供您希望翻译的具体文本内容，我将为您翻译成简体中文。

Overview

本文提出了 AutoDW，一个新框架，使大型语言模型（LLM）能够以细粒度控制和内置回滚功能来编排复杂的多步骤文档处理工作流。通过将用户的高层请求拆分为一系列可以即时撤销或纠正的 API 调用，AutoDW 弥合了“单次调用”LLM 助手与真实办公软件中所需的稳健、会话级自动化之间的差距。

Intent Extraction – 用户的自然语言请求由 LLM 解析，以推断高层目标（例如，“在添加新章节后更新目录”）。
Candidate API Filtering – 使用推断出的意图对文档操作 API 库（例如 insert_paragraph、apply_style、save_version）进行筛选，将搜索范围缩小到最相关的操作。
Stepwise Planning – 对于每一步，系统提示 LLM 生成具体的 API 调用及其参数，依据 当前文档状态（以轻量级 JSON 快照形式捕获）。计划立即执行，并更新状态。
Rollback‑Enabled Execution –
- Argument‑level rollback：如果参数无效（例如，段落索引不存在），系统会自动在 API 调用前修正参数。
- API‑level rollback：如果 API 调用导致意外的文档更改，框架会将文档恢复到之前的快照，并让 LLM 提出替代步骤。
Iterative Loop – 该过程循环进行，直至满足用户的高层目标或达到终止条件（最大步数、超时）。

整个管道由轻量级控制器编排，记录每一次操作，便于调试和审计追踪。

指标	AutoDW	最佳基线	相对增益
指令层面完成率	90 %	50 %	+40 %
会话层面完成率	62 %	35 %	+76 %
对LLM骨干的鲁棒性（GPT‑3.5 vs. Claude）	持续 > 85 %	60 %–70 %	—
“困难”会话的表现（≥ 8 步）	55 %	20 %	+35 %

生产力工具: 将 AutoDW 集成到办公套件（如 Microsoft Office、Google Docs）中，用户可以用自然语言描述复杂编辑（例如“将所有标题转换为标题大小写并重新编号图表”），系统安全地执行这些操作。
企业自动化: 公司可以将 SOP（标准操作程序）编码为可重用的 API 库，让非技术人员通过单条聊天指令触发多步骤文档流水线（合同生成 → 合规检查 → 电子签名）。
开发者人机工程: 框架提供清晰的操作日志和回滚追踪，简化 LLM 驱动机器人调试，减少手动防护措施的需求。
合规与审计: 由于每一步都被记录且可逆，组织能够保留不可变的文档变更轨迹——这对受监管行业至关重要。

AutoDW 为真正自主、抗错误的文档助理开辟了有前景的道路——将自然语言指令转化为可靠的多步骤操作，让开发者和终端用户都能放心使用。