SkillsBench:基准测试代理技能在多样任务中的表现
Source: Hacker News
作者
- Xiangyi Li
- Wenbo Chen
- Yimin Liu
- Shenghan Zheng
- Xiaokun Chen
- Yifeng He
- Yubo Li
- Bingran You
- Haotian Shen
- Jiankai Sun
- Shuyi Wang
- Qunhong Zeng
- Di Wang
- Xuandong Zhao
- Yuanli Wang
- Roey Ben Chaim
- Zonglin Di
- Yipeng Gao
- Junwei He
- Yizhuo He
- Liqiang Jing
- Luyang Kong
- Xin Lan
- Jiachen Li
- Songlin Li
- Yijiang Li
- Yueqian Lin
- Xinyi Liu
- Xuanqing Liu
- Haoran Lyu
- Ze Ma
- Bowei Wang
- Runhui Wang
- Tianyu Wang
- Wengao Ye
- Yue Zhang
- Hanwen Xing
- Yiqi Xue
- Steven Dillmann
- Han‑chung Lee
Abstract
Agent Skills 是结构化的程序性知识包,在推理时增强 LLM 代理。尽管被快速采用,但尚无标准方法衡量它们是否真的有帮助。我们推出 SkillsBench,一个包含 86 项任务、覆盖 11 个领域的基准,并配有精选的 Skills 和确定性的验证器。每项任务在三种条件下评估:无 Skills、精选 Skills 和自行生成的 Skills。我们在 7,308 条轨迹上测试了 7 种代理‑模型配置。精选 Skills 将平均通过率提升了 16.2 percentage points (pp),但效果在不同领域差异显著(软件工程提升 +4.5 pp,医疗保健提升 +51.9 pp),且在 84 项任务中有 16 项出现负向变化。自行生成的 Skills 平均未带来收益,表明模型无法可靠地编写它们所受益的程序性知识。包含 2–3 个模块的聚焦型 Skills 优于完整文档,且使用 Skills 的小模型可以匹配未使用 Skills 的大模型。
主题
人工智能 (cs.AI)
引用如下
arXiv:2602.12670 [cs.AI]
(此版本也可在 arXiv:2602.12670v1 [cs.AI] 获得)
DOI
https://doi.org/10.48550/arXiv.2602.12670 (arXiv 发行的 DOI,通过 DataCite,待注册)
提交历史
From: Xiangyi Li 查看邮件
[v1] Fri, 13 Feb 2026 07:06:06 UTC (1,366 KB)