‘Agent Skills’是 AI 生产力的秘密武器吗?
Source: Dev.to
一项名为 SKILLSBENCH 的大型新研究刚刚发布,对于所有构建或使用 AI 代理的人来说,这是一篇必读之作。随着大语言模型(LLM)演变为自主代理,业界正争相寻找最佳方式,让它们在不进行高成本微调的情况下处理复杂、领域特定的任务。
答案是什么?Agent Skills——在推理时为代理提供的模块化程序化知识包(包括指令、代码模板和启发式方法)。
研究概览
研究人员在 11 个不同领域 的 84 项任务 中,测试了七种代理‑模型配置(包括 Claude Code、Gemini CLI 和 Codex)。他们比较了三种条件:
- 无 Skills – 代理仅凭任务指令独立运行。
- 精选 Skills – 人工编写的高质量程序化指南。
- 自生成 Skills – 让代理在开始前自行编写指南。
关键要点
精选 Skills 是游戏规则的改变者
添加人工精选的 Skills 将平均通过率提升了 16.2 个百分点。在医疗保健和制造业等专业领域,提升幅度更为显著(最高 +51.9 pp)。AI 不能给自己的作业打分
“自生成” Skills 平均 没有任何收益。模型往往无法识别何时需要专业知识,或生成模糊、无用的步骤。小模型也能“提升”
配备 Skills 的小模型(例如 Haiku 4.5)实际上可以超越未配备 Skills 的更大模型(例如 Opus 4.5)。少即是多
仅包含 2–3 个模块 的聚焦 Skills 优于庞大、所谓“全面”的文档。信息过多会给代理带来 “认知负荷”。
表现最佳者
Gemini CLI + Gemini 3 Flash 的组合在配备 Skills 时达到了最高的原始表现,通过率为 48.7 %。
对于开发者和企业团队而言,这证明了人类专业知识仍是瓶颈。构建高质量、模块化的 “Skills” 库,目前是比单纯等待更大模型或在微调上花费巨资更有效(且更便宜)的提升 AI 代理性能的方式。
Reference: https://arxiv.org/abs/2602.12670