研究：自生成的 Agent Skills 没有用

发布: 3天前 (2026年2月17日 GMT+8 05:15)

3 分钟阅读

Source: Hacker News

作者

摘要

Agent Skills 是结构化的过程知识包，在推理时增强大型语言模型（LLM）代理。尽管被快速采用，但尚无标准方法衡量它们是否真的有帮助。我们提出 SkillsBench，一个包含 86 项任务、覆盖 11 个领域的基准，并配备精心挑选的 Skills 和确定性验证器。每项任务在三种条件下进行评估：不使用 Skills、使用精挑细选的 Skills、以及使用自生成的 Skills。我们在 7,308 条轨迹上测试了 7 种代理‑模型配置。精挑细选的 Skills 将平均通过率提升了 16.2 个百分点 (pp)，但不同领域的效果差异很大（软件工程提升 +4.5 pp，医疗保健提升 +51.9 pp），且在 84 项任务中有 16 项出现负向变化。自生成的 Skills 平均未带来收益，表明模型无法可靠地编写它们所依赖的过程知识。包含 2–3 个模块的聚焦型 Skills 优于完整文档，而使用 Skills 的小模型可以匹配不使用 Skills 的大模型。

主题

人工智能 (cs.AI)

引用

arXiv: 2602.12670 (cs.AI)
DOI: (arXiv 发行的 DOI，通过 DataCite，待注册)

提交历史

发件人: Xiangyi Li
版本: v1 – Fri, 13 Feb 2026 07:06:06 UTC (1,366 KB)

研究：自生成的 Agent Skills 没有用

作者

摘要

主题

引用

提交历史

相关文章

Trillion Labs，公开‘Tri 21B Think’…进入全球 AI 性能评估前30

当 AI Agent 理解其自身的 Guardrails 时会发生什么？

揭示大型语言模型中隐藏的偏见、情绪、人格和抽象概念

通过 Trace Rewriting 保护语言模型免受未授权蒸馏