‘Agent Skills’是 AI 生产力的秘密武器吗?

发布: (2026年2月17日 GMT+8 05:46)
3 分钟阅读
原文: Dev.to

Source: Dev.to

一项名为 SKILLSBENCH 的大型新研究刚刚发布,对于所有构建或使用 AI 代理的人来说,这是一篇必读之作。随着大语言模型(LLM)演变为自主代理,业界正争相寻找最佳方式,让它们在不进行高成本微调的情况下处理复杂、领域特定的任务。

答案是什么?Agent Skills——在推理时为代理提供的模块化程序化知识包(包括指令、代码模板和启发式方法)。

研究概览

研究人员在 11 个不同领域84 项任务 中,测试了七种代理‑模型配置(包括 Claude Code、Gemini CLI 和 Codex)。他们比较了三种条件:

  1. 无 Skills – 代理仅凭任务指令独立运行。
  2. 精选 Skills – 人工编写的高质量程序化指南。
  3. 自生成 Skills – 让代理在开始前自行编写指南。

关键要点

  • 精选 Skills 是游戏规则的改变者
    添加人工精选的 Skills 将平均通过率提升了 16.2 个百分点。在医疗保健和制造业等专业领域,提升幅度更为显著(最高 +51.9 pp)。

  • AI 不能给自己的作业打分
    “自生成” Skills 平均 没有任何收益。模型往往无法识别何时需要专业知识,或生成模糊、无用的步骤。

  • 小模型也能“提升”
    配备 Skills 的小模型(例如 Haiku 4.5)实际上可以超越未配备 Skills 的更大模型(例如 Opus 4.5)。

  • 少即是多
    仅包含 2–3 个模块 的聚焦 Skills 优于庞大、所谓“全面”的文档。信息过多会给代理带来 “认知负荷”。

表现最佳者

Gemini CLI + Gemini 3 Flash 的组合在配备 Skills 时达到了最高的原始表现,通过率为 48.7 %

对于开发者和企业团队而言,这证明了人类专业知识仍是瓶颈。构建高质量、模块化的 “Skills” 库,目前是比单纯等待更大模型或在微调上花费巨资更有效(且更便宜)的提升 AI 代理性能的方式。

Reference: https://arxiv.org/abs/2602.12670

0 浏览
Back to Blog

相关文章

阅读更多 »

我加入 OpenAI

TL;DR 我将加入 OpenAI,致力于让 agents(代理)惠及所有人。OpenClaw https://openclaw.ai/ 将转为基金会,并保持开放和独立。Recent d...