[论文] 从意图到执行:使用 Agent Recommendation 组合 Agentic 工作流
发布: (2026年5月6日 GMT+8 01:08)
7 分钟阅读
原文: arXiv
Source: arXiv - 2605.03986v1
概述
本文提出了一个端到端框架,能够根据高级用户意图自动构建 多代理工作流。通过用一组协同的软件模块取代传统上手动的规划、代理选择和执行图构建步骤,作者展示了一种更具可扩展性的方式来快速启动特定任务的 AI 应用。
关键贡献
- LLM‑驱动的规划器,将自然语言意图转换为结构化的任务序列。
- 两阶段代理推荐器(快速向量检索器 + LLM 重排序器),从本地和全局注册表中挑选最合适的代理。
- 动态调用图生成器,将选中的代理组装成可执行的工作流。
- 批评代理,审查整个计划并可触发修订,以提升召回率和鲁棒性。
- 全面的实证评估,包括嵌入器/重排序器的选择、描述丰富化以及批评步骤的影响,展示了业界领先的召回性能。
方法论
-
Intent → Task Decomposition
- 一个大型语言模型(例如 GPT‑4)接收用户的自然语言目标,并输出一个有序的原子任务列表。
-
Agent Retrieval
- Stage 1: 使用密集向量检索器(例如 FAISS + sentence‑transformer 嵌入)快速拉取与每个任务的元数据匹配的候选代理的简短列表。
- Stage 2: 较小的 LLM 利用更丰富的上下文线索(任务描述、代理能力、过去表现)对简短列表进行重新排序。
-
Workflow Assembly
- 系统构建一个 dynamic call graph,根据任务依赖关系将选定的代理连接起来,形成可执行的 DAG(有向无环图)。
-
Critique Loop
- 专用的 critique agent 检查完整计划及所选代理,查找缺口或不匹配,并可请求重新规划或更换代理。
-
Execution
- orchestrator 按拓扑顺序调用每个代理,将中间结果向下游传递,直至满足整体意图。
所有组件都是模块化的,开发者可以自行替换 LLM、嵌入模型或自定义代理。
结果与发现
| 方面 | 指标 | 结果 |
|---|---|---|
| 正确代理的召回率 | 与合适代理匹配的任务比例 | 约高15 % 相比之前的基线(例如单阶段检索)。 |
| 可扩展性 | 检索100任务工作流的代理所需时间 | 线性增长;快速检索器保持低延迟(每任务< 200 ms)。 |
| 评审影响 | 评审前后的召回率 | +4–6 % 绝对提升,确认整体评审步骤的价值。 |
| 鲁棒性 | 在意图表达噪声下的成功率 | 任务完成率保持 > 90 %,而基线下降至 < 70 %。 |
实验还表明,丰富代理描述(添加示例输入/输出)显著提升了重新排序器挑选正确工具的能力。
实际影响
- 快速原型化 AI 驱动的服务: 开发者可以用普通英语描述新的工作流,并获得一个可直接运行的多代理流水线,而无需手工编写胶水代码。
- 市场集成: 托管专用代理目录(例如数据清洗、翻译、代码生成)的 SaaS 平台可以使用推荐系统自动将客户请求匹配到最合适的服务。
- 企业自动化: 业务流程自动化团队可以用自适应代理链替代脆弱的 RPA 脚本,后者能够自行为每一步选择最合适的工具。
- 可扩展性: 由于框架是模块化的,团队可以替换为特定领域的 LLM 或嵌入模型,以针对细分行业(金融、医疗等)定制性能。
简而言之,这种方法降低了构建复杂、可组合 AI 系统的门槛,将 “意图 → 执行” 转化为可重复的工程模式。
限制与未来工作
- 依赖高质量的代理元数据: 推荐系统的成功取决于结构良好、描述详尽的注册表;稀疏或噪声较大的描述会降低性能。
- 大语言模型的成本与延迟: 在规划和重新排序时使用大型语言模型在非常大的工作流中可能成本高昂;未来工作可以探索蒸馏模型或缓存策略。
- 评估范围: 基准测试侧重于召回率和合成意图;实际部署中涉及复杂错误处理和安全约束的情况仍需测试。
- 动态适应性: 当前系统假设代理池是静态的;将其扩展为能够即时发现或训练新代理是一个开放的研究方向。
总体而言,本文为自动化多代理组合奠定了坚实基础,同时指出了社区可以在下一步解决的实际挑战。
作者
- Kishan Athrey
- Ramin Pishehvar
- Brian Riordan
- Mahesh Viswanathan
论文信息
- arXiv ID: 2605.03986v1
- 分类: cs.AI
- 发表时间: 2026年5月5日
- PDF: 下载 PDF