SkillsBench：基准测试代理技能在多样任务中的表现

发布: 2个月前 (2026年2月17日 GMT+8 05:15)

2 分钟阅读

Source: Hacker News

作者

Abstract

Agent Skills 是结构化的程序性知识包，在推理时增强 LLM 代理。尽管被快速采用，但尚无标准方法衡量它们是否真的有帮助。我们推出 SkillsBench，一个包含 86 项任务、覆盖 11 个领域的基准，并配有精选的 Skills 和确定性的验证器。每项任务在三种条件下评估：无 Skills、精选 Skills 和自行生成的 Skills。我们在 7,308 条轨迹上测试了 7 种代理‑模型配置。精选 Skills 将平均通过率提升了 16.2 percentage points (pp)，但效果在不同领域差异显著（软件工程提升 +4.5 pp，医疗保健提升 +51.9 pp），且在 84 项任务中有 16 项出现负向变化。自行生成的 Skills 平均未带来收益，表明模型无法可靠地编写它们所受益的程序性知识。包含 2–3 个模块的聚焦型 Skills 优于完整文档，且使用 Skills 的小模型可以匹配未使用 Skills 的大模型。

主题

人工智能 (cs.AI)

引用如下

arXiv:2602.12670 [cs.AI]
（此版本也可在 arXiv:2602.12670v1 [cs.AI] 获得）

DOI

https://doi.org/10.48550/arXiv.2602.12670 （arXiv 发行的 DOI，通过 DataCite，待注册）

提交历史

From: Xiangyi Li 查看邮件
[v1] Fri, 13 Feb 2026 07:06:06 UTC (1,366 KB)

SkillsBench：基准测试代理技能在多样任务中的表现

作者

Abstract

主题

引用如下

DOI

提交历史

相关文章

‘Agent Skills’是 AI 生产力的秘密武器吗？

Qwen3.5：迈向原生多模态代理

OpenClaw 创始人 Peter Steinberger 加入 OpenAI

停止盲目Fine-Tuning：何时Fine-Tune——何时不动模型权重