[Paper] 在 Agentic 时代重新定义 AI Red Teaming:从数周到数小时
发布: (2026年5月6日 GMT+8 01:43)
6 分钟阅读
原文: arXiv
Source: arXiv - 2605.04019v1
概述
本文介绍了一种基于开源 Dreadnode SDK 的全新 AI 红队即服务。通过让操作员用自然语言描述其安全目标,系统能够自动组装并运行复杂的对抗性攻击,将通常需要数周的工作流构建过程缩短至数小时。作者在 Meta 的 Llama Scout 上演示了该方法,实现了 85 % 的成功率以及高危漏洞的突破。
关键贡献
- 代理式界面:基于自然语言的终端 UI,将高级目标转化为具体的攻击流水线。
- 统一攻击框架:将 45+ 对抗攻击、450+ 数据转换和 130+ 评分指标整合到一个可扩展的 SDK,覆盖传统机器学习模型和生成式 AI(例如 jailbreak)。
- 可扩展的多模态红队测试:支持多代理、多语言和多模态目标,无需针对每种目标类型编写自定义代码。
- 实证案例研究(Llama Scout):在零手写脚本的情况下,实现 85 % 的攻击成功率和最高 1.0 的严重性评分。
方法论
- Goal Capture – 操作员输入自然语言目标(例如,“从聊天机器人中提取私人用户数据”)。
- Intent Parsing – Dreadnode TUI 将请求转发给内部规划器,从策划库中选择相关攻击。
- Pipeline Synthesis – 规划器组合一系列转换(例如,token perturbation、prompt injection),并附加适当的评分器(例如,confidence drop、policy violation)。
- Execution Engine – 组装好的工作流针对目标系统运行,自动处理身份验证、速率限制和结果收集。
- Reporting – 生成简洁的机器可读报告,突出成功指标、严重性和可复现步骤。
所有组件都是模块化的;新的攻击或转换可以直接放入 SDK,而无需触及核心编排逻辑。
结果与发现
- 加速:端到端红队周期从平均 3 周(手动脚本组装)下降到使用代理的 ≈4 小时。
- 有效性:在 Meta Llama Scout 上,系统实现了 85 % 的攻击成功率,严重性评分(0–1 量表)对最具破坏性的漏洞达到 1.0。
- 覆盖范围:统一框架成功探测了经典图像分类器(对抗样本)和文本到图像生成器(提示越狱),展示了跨领域的适用性。
- 操作员负荷:对 12 位安全工程师的用户研究显示,认知负荷降低了 70 %,对自然语言界面的满意度评分为 90 %。
实际影响
- Rapid Security Audits – 团队可以在一个工作日内启动对新 AI 模型的全面 red‑team 评估,加速合规和发布周期。
- Standardized Reporting – 统一的严重性指标简化了与现有风险管理仪表板和 CI/CD 流水线的集成。
- Lower Barrier to Entry – 非专业开发者现在可以在不了解每个攻击库的深层知识的情况下进行复杂的对抗测试。
- Continuous Defense – 可以将该代理安排为每晚一次的 “AI fuzz” 任务,自动在模型更新后发现回归问题。
限制与未来工作
- 转换范围 – 虽然已有 450 多种转换覆盖了许多常见模态,但一些小众领域(例如强化学习代理)仍然代表性不足。
- 对提示质量的依赖 – 自然语言规划器可能误解模糊的目标,从而导致次优的攻击选择。
- 大规模部署的可扩展性 – 当前原型按顺序执行攻击;计划实现并行编排和分布式执行。
- 伦理保障 – 作者指出需要更强的使用政策执行,以防止强大的自动化红队能力被滥用。
总体而言,这项工作展示了一个具备代理能力的统一红队平台如何显著缩短 AI 安全的洞察时间,为在快速扩展的 AI 领域进行更频繁、更彻底的安全测试打开了大门。
作者
- Raja Sekhar Rao Dheekonda
- Will Pearce
- Nick Landers
论文信息
- arXiv ID: 2605.04019v1
- 分类: cs.AI, cs.CR
- 出版日期: 2026年5月5日
- PDF: 下载 PDF