[Paper] 学习组合用于跨领域 Agentic 工作流生成

发布: 3天前 (2026年2月12日 GMT+8 02:27)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.11114v1

Source: …

概览

本文提出了一种全新的方法，能够自动创建 agentic workflows——由操作符（或代码片段）构成的结构化序列，使大型语言模型（LLMs）能够进行推理、验证和修复其输出。通过教会 LLM 分解任务为可重用的能力、在运行时 重新组合 这些能力，并决定哪些部分真正起作用，作者实现了可靠的单次生成工作流，能够跨越截然不同的领域使用，将通常需要 20 多次迭代的细化过程压缩到一次完成。

关键贡献

紧凑的能力库：学习一小套可在多个领域复用的工作流原语。
稀疏组合引擎：将任何新任务映射到这些原语的轻量、稀疏组合，实现一次性工作流合成。
反事实归因：引入因果式分析，以定位哪些能力促成了成功的工作流，提升可解释性和鲁棒性。
跨领域性能：展示单一大型语言模型能够为已见、分布转移以及完全未见的领域生成高质量工作流，无需领域特定的微调。
效率提升：在实现与最先进的迭代细化方法相当或更好结果的同时，将延迟和计算成本降低一个数量级。

方法论

Decompose – 作者首先训练一个开源 LLM，以识别一组 basis set 工作流能力（例如 “search the web”、 “run a Python script”、 “validate JSON”）。这通过对来自多个领域的操作符图进行聚类，并提取最常见、可复用的模式来实现。
Recompose – 给定新的用户请求，模型在已学习的 basis 上预测一个 sparse vector，本质上选择少数几种能力组合来完成任务。选中的能力随后在一次前向传播中被拼接成具体的工作流图。
Decide – 执行后，系统进行 counterfactual contribution analysis：它扰动每个能力的存在与否，测量对成功的影响，从而将功劳（或责任）归于各个原语。此反馈回路在无需完整重新训练的情况下优化能力库。

所有步骤均基于公开可用的 LLM（如 LLaMA‑2）实现，并依赖标准的微调和提示技术，使得整个流水线可复现。

结果与发现

评估设置	指标（数值越高越好）	基线（20 步细化）	提议的单次通过方法
领域内	成功率（%）	78.3	84.7
跨域	成功率（%）	62.1	71.5
未见域	成功率（%）	48.9	58.2
延迟	每个工作流的平均秒数	12.4（20 次迭代）	1.1（单次通过）
计算成本	每千任务的 GPU 小时	3.6	0.4

单次通过生成器不仅在所有领域的成功率上超越了迭代基线，而且将生成时间缩短约 10 倍，显著降低了 GPU 消耗。反事实归因分析表明，学习能力中约 15 % 的小子集贡献了超过 80 % 的成功结果，验证了稀疏性假设。

实际影响

更快的 AI‑assisted tooling: IDE 插件、数据‑pipeline 构建器或低代码平台可以即时生成端到端的自动化脚本，无需等待多步骤的细化循环。
成本效益高的云服务: SaaS 提供商可以将模型嵌入其后端，并按请求计费而非按迭代计费，从而降低运营费用。
强大的跨领域助手: 客服机器人、科学分析管道或 DevOps 代理能够适应新的问题空间（例如新 API 或数据格式），无需对特定领域数据进行再训练。
可解释的自动化: 反事实归因为开发者提供了对生成工作流成功原因的清晰视图（为什么），有助于调试和合规审计。

限制与未来工作

Capability granularity: 当前的基础集合可能遗漏针对细分行业所需的高度专业化算子，需要手动扩展。
Counterfactual overhead: 虽然轻量，但归因步骤会增加少量运行时成本，在大规模时可能变得显著。
Evaluation scope: 基准测试侧重于合成和基准任务；在安全关键领域（如医疗或金融）的实际部署仍需进行彻底验证。
Future directions: 作者建议通过持续学习扩展能力库，整合更丰富的执行反馈（如日志、错误追踪），并探索层次化组合以实现更复杂的多步骤流程。

作者

Jialiang Wang
Shengxiang Xu
Hanmo Liu
Jiachuan Wang
Yuyu Luo
Shimin Di
Min-Ling Zhang
Lei Chen

论文信息

arXiv ID: 2602.11114v1
分类: cs.MA, cs.AI, cs.LG, cs.SE
出版日期: 2026年2月11日
PDF: 下载 PDF

[Paper] 学习组合用于跨领域 Agentic 工作流生成

概览

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] 规模化验证在视觉-语言-动作对齐中可能比规模化策略学习更有效

[Paper] UniT：统一多模态链式思考测试时扩展

[Paper] MonarchRT：高效注意力用于实时视频生成

[Paper] 基于 Flow-Guided Neural Operator 的自监督学习在时间序列数据上的应用