‘Agent Skills’是 AI 生产力的秘密武器吗？

发布: 2个月前 (2026年2月17日 GMT+8 05:46)

3 分钟阅读

原文: Dev.to

Source: Dev.to

一项名为 SKILLSBENCH 的大型新研究刚刚发布，对于所有构建或使用 AI 代理的人来说，这是一篇必读之作。随着大语言模型（LLM）演变为自主代理，业界正争相寻找最佳方式，让它们在不进行高成本微调的情况下处理复杂、领域特定的任务。

答案是什么？Agent Skills——在推理时为代理提供的模块化程序化知识包（包括指令、代码模板和启发式方法）。

研究概览

研究人员在 11 个不同领域 的 84 项任务 中，测试了七种代理‑模型配置（包括 Claude Code、Gemini CLI 和 Codex）。他们比较了三种条件：

无 Skills – 代理仅凭任务指令独立运行。
精选 Skills – 人工编写的高质量程序化指南。
自生成 Skills – 让代理在开始前自行编写指南。

关键要点

精选 Skills 是游戏规则的改变者
添加人工精选的 Skills 将平均通过率提升了 16.2 个百分点。在医疗保健和制造业等专业领域，提升幅度更为显著（最高 +51.9 pp）。
AI 不能给自己的作业打分
“自生成” Skills 平均 没有任何收益。模型往往无法识别何时需要专业知识，或生成模糊、无用的步骤。
小模型也能“提升”
配备 Skills 的小模型（例如 Haiku 4.5）实际上可以超越未配备 Skills 的更大模型（例如 Opus 4.5）。
少即是多
仅包含 2–3 个模块 的聚焦 Skills 优于庞大、所谓“全面”的文档。信息过多会给代理带来 “认知负荷”。

表现最佳者

Gemini CLI + Gemini 3 Flash 的组合在配备 Skills 时达到了最高的原始表现，通过率为 48.7 %。

对于开发者和企业团队而言，这证明了人类专业知识仍是瓶颈。构建高质量、模块化的 “Skills” 库，目前是比单纯等待更大模型或在微调上花费巨资更有效（且更便宜）的提升 AI 代理性能的方式。

Reference: https://arxiv.org/abs/2602.12670

相关文章

阅读更多 »

重构 Agent 技能：从上下文爆炸到快速、可靠的工作流

重构代理技能：我的 Context Window 死亡之日有一种特定的痛苦，你只能体验一次：你在 Claude Code 中，触发了几个……

我加入 OpenAI

TL;DR 我将加入 OpenAI，致力于让 agents（代理）惠及所有人。OpenClaw https://openclaw.ai/ 将转为基金会，并保持开放和独立。Recent d...

两种不同的技巧用于快速 LLM 推理

Fast Mode 对决：Anthropic 与 OpenAI Anthropichttps://platform.claude.com/docs/en/build-with-claude/fast-mode 和 OpenAIhttps://openai.com/index/introducing...

设计不漂移的 AI 系统：面向身份感知 LLM 架构的实用方法

问题不在于幻觉——而在于漂移当开发者将大型语言模型集成到产品中时，最大的问题不是幻觉，而是推理漂移。