[Paper] 组织、编排与基准测试 Agent Skills 在生态系统规模下

发布: (2026年3月3日 GMT+8 02:46)
7 分钟阅读
原文: arXiv

Source: arXiv - 2603.02176v1

概览

本文介绍了 AgentSkillOS,一个系统化框架,用于在整个生态系统规模上组织、选择和编排成千上万的 LLM 驱动的“代理技能”(类似插件函数)。通过将技能结构化为层级能力树,并使用有向无环图(DAG)流水线将它们串联起来,作者展示了大规模技能集合相较于许多当前代理所采用的临时、平坦的“调用任意技能”方式,能够更高效地使用。

关键贡献

  • Capability Tree:一种递归的节点级别分类方法,将无结构的技能池转化为可搜索的树形结构,实现快速发现和接近最优的检索。
  • DAG‑Based Orchestration:一种管道模型,在有向无环图中组合多个技能,支持并行执行、数据流控制以及条件分支。
  • AgentSkillOS Benchmark:全新套件,包含 30 项“富含产出物”的任务,覆盖数据计算、文档生成、动作视频、视觉设计和网页交互,并配备基于大语言模型的两两评估流水线(Bradley‑Terry 聚合)。
  • Scalable Experiments:在规模从 200 到 200 K 技能的生态系统上进行实证验证,表明树形检索接近于最优选择器,且 DAG 编排始终优于平面技能调用。
  • Open‑Source Release:完整代码、基准数据和评估脚本已公开发布,鼓励可重复性研究和社区扩展。

方法论

  1. 技能管理(阶段 1)

    • 为每个技能标注一组能力标签(例如 image‑generationSQL‑querybrowser‑automation)。
    • 递归聚类算法构建 能力树,其中内部节点代表更宽泛的概念,叶子节点是单个技能。
    • 检索通过从根到叶遍历树,剪除与任务语义查询不匹配的分支,从而得到紧凑的候选集合。
  2. 任务求解(阶段 2)

    • 给定用户请求后,轻量级 LLM(“编排器”)首先通过能力树选择相关技能子集。
    • 编排器随后构建 DAG 流水线:每个节点是一个技能,边表示数据依赖(例如,数据清洗技能的输出作为可视化技能的输入)。
    • DAG 按拓扑顺序执行,尽可能并行运行,并通过回退分支处理失败。
  3. 基准测试与评估

    • 精心挑选了 30 个任务,需要多个异构产出(表格、图像、视频、网页)。
    • 对每个任务比较三种系统:(a) Oracle(完美技能选择),(b) 树检索 + DAG,以及 (c) 平面调用(无结构)。
    • 输出由强大的 LLM(GPT‑4‑Turbo)进行两两比较,使用 Bradley‑Terry 模型聚合得分,得到每个系统的单一质量指标。

Source:

结果与发现

生态系统规模Oracle 与 树检索平面 与 DAG(相同技能集)
200 技能92 % 的 Oracle 质量+18 % 质量提升
2 K 技能89 % 的 Oracle 质量+22 % 质量提升
200 K 技能85 % 的 Oracle 质量+27 % 质量提升
  • 树检索 能持续找到接近最优的技能子集,即使目录规模扩大了三个数量级。
  • DAG 编排 相比平面、顺序的技能调用,显著提升输出质量,证实结构化组合能够释放潜在能力。
  • 随着技能池变大,性能差距进一步扩大,表明朴素的平面调用在大规模时愈发脆弱。

实际意义

  • 开发者工具:构建插件市场(例如针对 Claude、ChatGPT 或内部 LLM 助手)时,可以采用能力树索引来提供即时、上下文感知的技能建议。
  • 工作流自动化:企业可以将复杂管道(数据 ETL → 报告 → 仪表盘)定义为有向无环图(DAG),让 LLM 自动将合适的技能串联起来,无需手动脚本编写。
  • 可扩展的 AI 助手:旨在支持“任何事物即技能”(例如 AI 驱动的 IDE、客服机器人)的产品,在技能目录膨胀时仍能保持性能,避免传统的“搜索‑调用”导致的性能下降。
  • 基准标准:AgentSkillOS 基准提供了一个可复用的衡量标准,用于未来多技能编排研究,推动更真实、面向产出物的评估。

局限性与未来工作

  • 技能元数据质量:树结构的有效性依赖于准确的能力标签;噪声或缺失的注释会降低检索效果。
  • 编排器 LLM 大小:实验使用了强大的 LLM 来构建 DAG;较小的模型可能在处理复杂依赖推理时表现不足。
  • 动态技能:当前框架假设技能集合相对静态;实时处理频繁的添加/删除仍是一个未解决的挑战。
  • 用户反馈回路:未来工作可以加入来自终端用户的强化信号,以随时间不断优化树结构和 DAG 生成。

AgentSkillOS 提供了一个将庞大的 LLM 插件海洋转化为可导航、可组合生态系统的具体蓝图——这是实现真正可扩展 AI 助手的关键一步。

作者

  • Hao Li
  • Chunjiang Mu
  • Jianhao Chen
  • Siyue Ren
  • Zhiyao Cui
  • Yiqun Zhang
  • Lei Bai
  • Shuyue Hu

论文信息

  • arXiv ID: 2603.02176v1
  • 类别: cs.CL
  • 出版日期: 2026年3月2日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »