我们对 Agentic AI 进行 525 次真实攻击的测试。以下是我们的发现。

发布: 1个月前 (2026年3月13日 GMT+8 12:14)

6 分钟阅读

原文: Dev.to

Source: Dev.to

引言

我们做了数据分析。威胁是真实存在的。

在过去的几个月里，我们一直在构建并验证 Cerberus —— 一个面向代理式 AI 系统的开源运行时安全框架。它围绕我们称之为 致命三位一体 的特定威胁模型设计：在单个 AI 执行回合中，特权数据访问、未受信任内容注入以及外部数据泄露路径同时出现的情形。

我们刚刚完成了第一次正式验证：在三个主要 AI 提供商上进行 525 次攻击试验。以下是关键发现。

Attack Success Rates

Full injection compliance – agent fully redirected to attacker’s address

Model	Success Rate	95 % CI	Causation Score
GPT‑4o‑mini	90.3 %	84.8 % – 93.9 %	0.811
Gemini 2.5 Flash	82.4 %	75.9 % – 87.5 %	0.702
Claude Sonnet	6.7 %	3.8 % – 11.5 %	0.207

Control group: 所有提供商共 0/30 次数据泄露（干净基线）。
Statistical significance: Fisher’s exact test，OpenAI p — “这不是理论上的漏洞。以 90 % 的成功率，致命三位一体是针对当前生产 AI 系统的可靠攻击原语。”

什么是致命三合一？

攻击链需要在单个执行回合中满足三个条件：

特权数据访问 – 代理能够查看敏感的运营或财务数据。
不受信任的内容注入 – 代理处理外部输入（例如供应商文档、发票、客户邮件、合规文件）。
外部数据外泄路径 – 代理有权限执行下游操作。

为什么重要

供应链环境： AI 代理编排采购工作流，读取供应商提交的文件，交叉引用库存系统，并触发采购订单。
金融服务： 代理汇总客户投资组合，处理合规文件，并对交易进行分流。

这两种架构在设计上都满足上述全部三项条件，使致命三合一成为这些行业中代理式 AI 的默认配置。我们的数据表明，三大模型提供商中的两家其漏洞率超过 80 %。

Source: …

Cerberus 检测结果 — 以及缺口所在

Cerberus 采用三层检测。验证在 observe‑only 模式下进行——代理行为保持正常，Cerberus 仅记录观察结果而不进行干预。

检测层结果 (N = 525)

层级	描述	检测率
L1	数据源监控	100 % (97.9 % – 100 %)
L2	Token 来源追踪	100 % (97.9 % – 100 %)
L3	出站意图检测	13.7 % (OpenAI) / 1.1 % (Anthropic) / 65.7 % (Google)

整体检测率： 28.5 % (24.7 % – 32.6 %)。
误报率： 0.0 % (0.0 % – 11.4 %) — 在 30 次干净对照运行中未出现误触发。

各类别检测率（所有提供商合计）

直接注入：37.8 % (28.5 % – 48.1 %)
编码/混淆：37.5 % (27.2 % – 49.0 %)
多轮对话：33.3 % (22.9 % – 45.6 %)
多语言：33.3 % (22.9 % – 45.6 %)
高级技术：20.0 % (14.1 % – 27.5 %)
社会工程：15.3 % (8.8 % – 25.3 %)

L3 检测缺口是已知的局限性，也是当前积极开发的重点。L1 与 L2 的覆盖已达生产就绪水平；L3 则是对抗性军备竞赛的前线。

零性能开销

p50 延迟: 52 µs 每会话
p99 延迟: 0.23 ms 每会话
开销: 0.01 % 的典型 LLM 延迟 (~2 s)

相较于约 2 秒的典型 LLM 响应时间，Cerberus 增加的开销可以忽略不计，消除了部署时的任何性能争议。

Implications for Supply‑Chain and Financial Services

如果您的代理型 AI 部署使用 GPT‑4o‑mini 或 Gemini，并处理外部文档（供应商提交、发票、客户沟通、合规文件），致命三连击的成功率超过 80 %。

关键问题不在于是否可以发动攻击，而在于是否拥有能够在单次执行回合中检测到所有三项条件同时激活的运行时层。大多数当前的部署缺乏这种可视性。

Cerberus 入门指南

GitHub：
npm 包： @cerberus-ai/core (signed provenance)
演示：
公司网站：

标签: #AgenticAI #SupplyChain #FinancialServices #CyberSecurity #RuntimeSecurity #PromptInjection #OpenSource #Cerberus #SixSense #LLMSecurity #RedTeam

我们对 Agentic AI 进行 525 次真实攻击的测试。以下是我们的发现。

引言

Attack Success Rates

什么是致命三合一？

为什么重要

Cerberus 检测结果 — 以及缺口所在

检测层结果 (N = 525)

各类别检测率（所有提供商合计）

零性能开销

Implications for Supply‑Chain and Financial Services

Cerberus 入门指南

相关文章

为什么开源 AI 工具正在悄然获胜

信任债务：AI生成的代码库中隐藏的生产危机

运行完整的 Agentic 部署流水线：从 Scaffold 到 Live CloudFront

为什么 Local-First 是生产力的未来

引言

Attack Success Rates

什么是致命三合一？

为什么重要

Cerberus 检测结果 — 以及缺口所在

检测层结果 (N = 525)

各类别检测率（所有提供商合计）

零性能开销

Implications for Supply‑Chain and Financial Services

Cerberus 入门指南

相关文章

为什么开源 AI 工具正在悄然获胜

信任债务：AI生成的代码库中隐藏的生产危机

运行完整的 Agentic 部署流水线：从 Scaffold 到 Live CloudFront

为什么 Local-First 是生产力的未来

检测层结果 (N = 525)