[Paper] Agent Skills in the Wild:大规模安全漏洞的实证研究

发布: (2026年1月15日 GMT+8 20:31)
6 min read
原文: arXiv

Source: arXiv - 2601.10338v1

概述

The paper “Agent Skills in the Wild: An Empirical Study of Security Vulnerabilities at Scale” shines a light on a rapidly growing but under‑examined part of the AI ecosystem: agent skills—plug‑in packages that extend the behavior of AI agents with custom instructions and executable code. By scanning tens of thousands of publicly available skills, the authors reveal that a surprising share of them contain serious security flaws, raising urgent questions for anyone building, deploying, or consuming AI‑driven agents.

关键贡献

  • 大规模实证数据集 – 收集了来自两个主要市场的 42 k 技能;其中 31 k 已完成全面分析。
  • SkillScan 检测框架 – 一个多阶段流水线,将静态代码分析与 LLM 驱动的语义分类相结合,实现 86.7 % 精确率82.5 % 召回率
  • 漏洞分类法 – 基于 8 126 个易受攻击的技能,定义了 14 种不同模式,分为四个高级别类别:提示注入、数据泄露、特权提升和供应链风险。
  • 量化风险洞察 – 26.1 % 的检查技能至少包含一个漏洞;数据泄露(13.3 %)和特权提升(11.8 %)最为常见。
  • 开放资源 – 发布了整理好的数据集和 SkillScan 工具包,以实现可重复性和进一步研究。

方法论

  1. 数据收集 – 抓取了两个流行的技能市场,去重条目,并过滤掉格式错误的包,最终得到 31 132 个可分析的技能。
  2. 静态分析 – 解析技能清单,检查捆绑的脚本,并提取代码层面的工件(例如网络调用、操作系统命令)。
  3. LLM‑辅助语义分类 – 提示大型语言模型解释自然语言指令并推断预期行为,标记不匹配或可疑意图。
  4. 多阶段过滤 – 将静态信号和 LLM 输出结合在基于规则的评分系统中,然后手动验证分层抽样以校准精确率/召回率。
  5. 统计检验 – 使用优势比和显著性检验(p < 0.001)比较不同技能类型(脚本捆绑 vs. 仅指令)的漏洞率。

结果与发现

指标发现
整体漏洞普遍率26.1 % 的技能包含 ≥1 个漏洞
主要类别• 数据外泄 – 13.3 %
• 特权提升 – 11.8 %
高危恶意模式5.2 % 的技能表现出强烈指示有意滥用的模式
脚本打包的风险因素发布可执行脚本的技能其漏洞可能性是其他技能的 2.12×(OR = 2.12, p < 0.001)
检测性能精确率 = 86.7 %,召回率 = 82.5 %(在人工标记子集上验证)
分类体系广度从 8 126 个漏洞实例中提取,涵盖 4 类共 14 种不同的漏洞模式

这些数据表明,“wild” 技能生态系统已经成为凭证泄露、未授权系统指令以及供应链妥协等攻击的肥沃土壤。

实际影响

  • 对于平台运营商 – 研究结果强有力地支持 基于能力的权限模型(例如,对脚本进行沙箱隔离、明确的网络访问授权)以及在发布新技能之前使用 自动化审查流水线
  • 对于集成代理的开发者 – 将第三方技能视为 不可信代码:审计清单,限制授予的权限,并考虑对异常网络或文件系统活动进行运行时监控。
  • 对于安全团队 – 已发布的分类法可以直接映射到现有的 SIEM 规则或威胁情报源,从而在生产环境中实现对受损代理的早期检测。
  • 对于 AI 产品经理 – 在市场列表中加入“技能安全评分”可能成为差异化因素,鼓励供应商采用更安全的开发实践。
  • 对于开源贡献者 – 开源的 SkillScan 工具包提供了即用型扫描器,可集成到 CI 流水线中,类似于传统软件的静态分析工具。

限制与未来工作

  • Marketplace coverage – 仅检查了两个主要的市场;小众或私有仓库可能具有不同的风险特征。
  • Dynamic behavior not captured – 该研究依赖静态和基于 LLM 的分析;仅在特定输入下才会出现的运行时利用可能被遗漏。
  • LLM bias – 语义分类取决于底层 LLM 的知识和提示设计,可能导致误报/漏报。
  • Evolving skill formats – 随着代理框架的演进,新的技能打包约定可能使当前检测规则失效,需要对 SkillScan 持续更新。

未来的研究方向包括将分析扩展到 runtime sandboxing,探索 cross‑skill supply‑chain attacks,以及构建 standardized security schemas,以便市场能够自动强制执行。

作者

  • Yi Liu
  • Weizhe Wang
  • Ruitao Feng
  • Yao Zhang
  • Guangquan Xu
  • Gelei Deng
  • Yuekang Li
  • Leo Zhang

论文信息

  • arXiv ID: 2601.10338v1
  • 分类: cs.CR, cs.AI, cs.CL, cs.SE
  • 出版时间: 2026年1月15日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »