[Paper] Agent Skills in the Wild:大规模安全漏洞的实证研究
Source: arXiv - 2601.10338v1
概述
The paper “Agent Skills in the Wild: An Empirical Study of Security Vulnerabilities at Scale” shines a light on a rapidly growing but under‑examined part of the AI ecosystem: agent skills—plug‑in packages that extend the behavior of AI agents with custom instructions and executable code. By scanning tens of thousands of publicly available skills, the authors reveal that a surprising share of them contain serious security flaws, raising urgent questions for anyone building, deploying, or consuming AI‑driven agents.
关键贡献
- 大规模实证数据集 – 收集了来自两个主要市场的 42 k 技能;其中 31 k 已完成全面分析。
- SkillScan 检测框架 – 一个多阶段流水线,将静态代码分析与 LLM 驱动的语义分类相结合,实现 86.7 % 精确率 和 82.5 % 召回率。
- 漏洞分类法 – 基于 8 126 个易受攻击的技能,定义了 14 种不同模式,分为四个高级别类别:提示注入、数据泄露、特权提升和供应链风险。
- 量化风险洞察 – 26.1 % 的检查技能至少包含一个漏洞;数据泄露(13.3 %)和特权提升(11.8 %)最为常见。
- 开放资源 – 发布了整理好的数据集和 SkillScan 工具包,以实现可重复性和进一步研究。
方法论
- 数据收集 – 抓取了两个流行的技能市场,去重条目,并过滤掉格式错误的包,最终得到 31 132 个可分析的技能。
- 静态分析 – 解析技能清单,检查捆绑的脚本,并提取代码层面的工件(例如网络调用、操作系统命令)。
- LLM‑辅助语义分类 – 提示大型语言模型解释自然语言指令并推断预期行为,标记不匹配或可疑意图。
- 多阶段过滤 – 将静态信号和 LLM 输出结合在基于规则的评分系统中,然后手动验证分层抽样以校准精确率/召回率。
- 统计检验 – 使用优势比和显著性检验(p < 0.001)比较不同技能类型(脚本捆绑 vs. 仅指令)的漏洞率。
结果与发现
| 指标 | 发现 |
|---|---|
| 整体漏洞普遍率 | 26.1 % 的技能包含 ≥1 个漏洞 |
| 主要类别 | • 数据外泄 – 13.3 % • 特权提升 – 11.8 % |
| 高危恶意模式 | 5.2 % 的技能表现出强烈指示有意滥用的模式 |
| 脚本打包的风险因素 | 发布可执行脚本的技能其漏洞可能性是其他技能的 2.12×(OR = 2.12, p < 0.001) |
| 检测性能 | 精确率 = 86.7 %,召回率 = 82.5 %(在人工标记子集上验证) |
| 分类体系广度 | 从 8 126 个漏洞实例中提取,涵盖 4 类共 14 种不同的漏洞模式 |
这些数据表明,“wild” 技能生态系统已经成为凭证泄露、未授权系统指令以及供应链妥协等攻击的肥沃土壤。
实际影响
- 对于平台运营商 – 研究结果强有力地支持 基于能力的权限模型(例如,对脚本进行沙箱隔离、明确的网络访问授权)以及在发布新技能之前使用 自动化审查流水线。
- 对于集成代理的开发者 – 将第三方技能视为 不可信代码:审计清单,限制授予的权限,并考虑对异常网络或文件系统活动进行运行时监控。
- 对于安全团队 – 已发布的分类法可以直接映射到现有的 SIEM 规则或威胁情报源,从而在生产环境中实现对受损代理的早期检测。
- 对于 AI 产品经理 – 在市场列表中加入“技能安全评分”可能成为差异化因素,鼓励供应商采用更安全的开发实践。
- 对于开源贡献者 – 开源的 SkillScan 工具包提供了即用型扫描器,可集成到 CI 流水线中,类似于传统软件的静态分析工具。
限制与未来工作
- Marketplace coverage – 仅检查了两个主要的市场;小众或私有仓库可能具有不同的风险特征。
- Dynamic behavior not captured – 该研究依赖静态和基于 LLM 的分析;仅在特定输入下才会出现的运行时利用可能被遗漏。
- LLM bias – 语义分类取决于底层 LLM 的知识和提示设计,可能导致误报/漏报。
- Evolving skill formats – 随着代理框架的演进,新的技能打包约定可能使当前检测规则失效,需要对 SkillScan 持续更新。
未来的研究方向包括将分析扩展到 runtime sandboxing,探索 cross‑skill supply‑chain attacks,以及构建 standardized security schemas,以便市场能够自动强制执行。
作者
- Yi Liu
- Weizhe Wang
- Ruitao Feng
- Yao Zhang
- Guangquan Xu
- Gelei Deng
- Yuekang Li
- Leo Zhang
论文信息
- arXiv ID: 2601.10338v1
- 分类: cs.CR, cs.AI, cs.CL, cs.SE
- 出版时间: 2026年1月15日
- PDF: 下载 PDF