[Paper] 组织、编排与基准测试 Agent Skills 在生态系统规模下

发布: 1天前 (2026年3月3日 GMT+8 02:46)

7 分钟阅读

原文: arXiv

Source: arXiv - 2603.02176v1

概览

本文介绍了 AgentSkillOS，一个系统化框架，用于在整个生态系统规模上组织、选择和编排成千上万的 LLM 驱动的“代理技能”（类似插件函数）。通过将技能结构化为层级能力树，并使用有向无环图（DAG）流水线将它们串联起来，作者展示了大规模技能集合相较于许多当前代理所采用的临时、平坦的“调用任意技能”方式，能够更高效地使用。

关键贡献

Capability Tree：一种递归的节点级别分类方法，将无结构的技能池转化为可搜索的树形结构，实现快速发现和接近最优的检索。
DAG‑Based Orchestration：一种管道模型，在有向无环图中组合多个技能，支持并行执行、数据流控制以及条件分支。
AgentSkillOS Benchmark：全新套件，包含 30 项“富含产出物”的任务，覆盖数据计算、文档生成、动作视频、视觉设计和网页交互，并配备基于大语言模型的两两评估流水线（Bradley‑Terry 聚合）。
Scalable Experiments：在规模从 200 到 200 K 技能的生态系统上进行实证验证，表明树形检索接近于最优选择器，且 DAG 编排始终优于平面技能调用。
Open‑Source Release：完整代码、基准数据和评估脚本已公开发布，鼓励可重复性研究和社区扩展。

方法论

技能管理（阶段 1）
- 为每个技能标注一组能力标签（例如 image‑generation、SQL‑query、browser‑automation）。
- 递归聚类算法构建 能力树，其中内部节点代表更宽泛的概念，叶子节点是单个技能。
- 检索通过从根到叶遍历树，剪除与任务语义查询不匹配的分支，从而得到紧凑的候选集合。
任务求解（阶段 2）
- 给定用户请求后，轻量级 LLM（“编排器”）首先通过能力树选择相关技能子集。
- 编排器随后构建 DAG 流水线：每个节点是一个技能，边表示数据依赖（例如，数据清洗技能的输出作为可视化技能的输入）。
- DAG 按拓扑顺序执行，尽可能并行运行，并通过回退分支处理失败。
基准测试与评估
- 精心挑选了 30 个任务，需要多个异构产出（表格、图像、视频、网页）。
- 对每个任务比较三种系统：(a) Oracle（完美技能选择），(b) 树检索 + DAG，以及 (c) 平面调用（无结构）。
- 输出由强大的 LLM（GPT‑4‑Turbo）进行两两比较，使用 Bradley‑Terry 模型聚合得分，得到每个系统的单一质量指标。

Source: …

结果与发现

生态系统规模	Oracle 与树检索	平面与 DAG（相同技能集）
200 技能	92 % 的 Oracle 质量	+18 % 质量提升
2 K 技能	89 % 的 Oracle 质量	+22 % 质量提升
200 K 技能	85 % 的 Oracle 质量	+27 % 质量提升

树检索 能持续找到接近最优的技能子集，即使目录规模扩大了三个数量级。
DAG 编排 相比平面、顺序的技能调用，显著提升输出质量，证实结构化组合能够释放潜在能力。
随着技能池变大，性能差距进一步扩大，表明朴素的平面调用在大规模时愈发脆弱。

实际意义

开发者工具：构建插件市场（例如针对 Claude、ChatGPT 或内部 LLM 助手）时，可以采用能力树索引来提供即时、上下文感知的技能建议。
工作流自动化：企业可以将复杂管道（数据 ETL → 报告 → 仪表盘）定义为有向无环图（DAG），让 LLM 自动将合适的技能串联起来，无需手动脚本编写。
可扩展的 AI 助手：旨在支持“任何事物即技能”（例如 AI 驱动的 IDE、客服机器人）的产品，在技能目录膨胀时仍能保持性能，避免传统的“搜索‑调用”导致的性能下降。
基准标准：AgentSkillOS 基准提供了一个可复用的衡量标准，用于未来多技能编排研究，推动更真实、面向产出物的评估。

局限性与未来工作

技能元数据质量：树结构的有效性依赖于准确的能力标签；噪声或缺失的注释会降低检索效果。
编排器 LLM 大小：实验使用了强大的 LLM 来构建 DAG；较小的模型可能在处理复杂依赖推理时表现不足。
动态技能：当前框架假设技能集合相对静态；实时处理频繁的添加/删除仍是一个未解决的挑战。
用户反馈回路：未来工作可以加入来自终端用户的强化信号，以随时间不断优化树结构和 DAG 生成。

AgentSkillOS 提供了一个将庞大的 LLM 插件海洋转化为可导航、可组合生态系统的具体蓝图——这是实现真正可扩展 AI 助手的关键一步。

作者

Hao Li
Chunjiang Mu
Jianhao Chen
Siyue Ren
Zhiyao Cui
Yiqun Zhang
Lei Bai
Shuyue Hu

论文信息

arXiv ID: 2603.02176v1
类别: cs.CL
出版日期: 2026年3月2日
PDF: 下载 PDF

[Paper] 组织、编排与基准测试 Agent Skills 在生态系统规模下

概览

关键贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] 推理核心：可扩展的过程式数据生成套件，用于符号预训练和后训练

[Paper] 测试时强化学习的工具验证

[Paper] 扩展 Retrieval Augmented Generation 与 RAG Fusion：行业部署经验

[Paper] 零样本和少样本命名实体识别：犯罪领域的案例研究与数据集 (CrimeNER)