你可能错误地使用了 Agent Skills

发布: (2026年2月23日 GMT+8 05:36)
7 分钟阅读
原文: Dev.to

Source: Dev.to

请提供您希望翻译的正文内容,我将为您翻译成简体中文并保持原有的 Markdown 格式。

背景

Claude Code 生态系统发展迅速,其命名约定可能令人困惑。在众多组件中,Agent Skills(代理技能)往往是最被误用的。最近在 Hacker News 上出现的一篇论文突显了这个问题:

SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks
Agent Skills 是结构化的程序性知识包,在推理时增强大型语言模型代理。尽管被快速采用,但尚无标准方法衡量它们是否真的有帮助。该基准评估了 86 项任务,覆盖 11 个领域,使用了精选和自行生成的技能。精选技能将平均通过率提升 16.2 pp,但效果差异很大(例如,软件工程提升 +4.5 pp,医疗保健提升 +51.9 pp)。自行生成的技能平均没有带来任何收益。
Xiangyi Li 等, arXiv [link]

Hacker News 的标题(“研究:自行生成的代理技能毫无用处”)带有一定的编辑色彩,但核心发现是:许多实践者在让代理解决任务之前让其先编写技能,这往往相当于重新实现“思考块”,且效果更差。

核心失误:自生成技能

基准测试将 Self‑Generated Skills 定义为:

“未提供任何技能,但在解决任务之前,要求代理生成相关的过程性知识。这可以隔离大型语言模型潜在领域知识的影响。”

在实践中,这意味着挑选模型表现不佳的问题,要求它 为该问题编写技能,然后让它尝试解决。此方法:

  • 重新发明了“思考块”模式,但增加了不必要的开销。
  • 常常产生 负增量——该技能实际上会削弱性能。
  • 类似于经典错误:让模型逐字回答问题,然后将该答案呈现为原创工作。

要创建真正有用的技能,代理必须首先 识别 自身知识或能力的缺口。只有这样,它才能生成超出潜在知识的、具有附加价值的技能。

什么是 Skill?

从本质上讲,Skill 是一个 markdown 文件,可选地包含元数据,用于告诉代理和工具何时调用它。Skill 通常组织在自己的文件夹中,以便它们可以捆绑辅助脚本、参考文档或其他资源。

.claude/skills/
└── monitor-gitlab-ci/
    ├── SKILL.md          # 主 skill 描述
    ├── monitor_ci.sh    # 辅助脚本
    └── references/
        ├── api_commands.md
        ├── log_analysis.md
        └── troubleshooting.md

在上面的示例中,该 skill 使旧版 Claude 能够监控 GitLab CI 流水线。文件夹包含:

  • SKILL.md – 人类可读的说明和元数据。
  • monitor_ci.sh – 代理可以调用的具体命令行工具。
  • references/ – 用于边缘情况的补充文档。

正确的使用模式

1. 确认真实的缺口

在让代理生成技能之前,确保它 无法凭借自身的基础知识完成任务。典型迹象包括:

  • 反复失败或“幻觉”。
  • 请求模型从未见过的特定领域命令或 API。

2. 将缺口捕获为技能

当代理最终克服障碍(通常在人工干预后),询问它:

“导致你之前未能成功的知识或步骤缺失是什么?”

将该洞见记录为技能,并包括未来运行所需的脚本或参考文件。

3. 保持技能聚焦

实证结果表明 小而聚焦的技能(2–3 个模块) 优于大型、整体的文档捆绑。目标是:

  • 每个技能一个明确的目的。
  • 最少且命名清晰的辅助文件。

4. 持久存储技能

因为代理是 无状态 的——每次对话都是全新开始——将技能持久化在仓库中(例如 .claude/skills/ 目录)可确保跨会话可用。

5. 在项目间复用

当某个技能在一个项目中证明有用时,考虑将其抽象化以便更广泛适用。这可以减少重复并加快新代理的上手速度。

常见陷阱需避免

陷阱为什么会失败
在代理还不知道问题时就让它编写技能该技能会成为一个通用的“思考块”,没有提供新信息。
使用过于宽泛的技能稀释了收益;代理可能会忽视或误用该技能。
把技能当作一次性脚本没有元数据,代理无法发现何时使用它们。
仅依赖自行生成的技能基准测试显示没有平均提升;经过策划或人工验证的技能效果要好得多。

Takeaway

  • 策划且聚焦的技能 可以显著提升代理的表现(在某些领域提升高达 +51.9 pp)。
  • 即时生成的技能(在没有明确知识缺口的情况下随手创建)通常 没有帮助,甚至可能产生负面影响。
  • 有效的技能创建关键在于 识别真实的不足,简明记录,并将其持久化以供未来复用。

祝你玩得开心!

0 浏览
Back to Blog

相关文章

阅读更多 »