Sir-Bench – 安全事件响应代理基准
Source: Hacker News
Abstract
我们提出 SIR‑Bench,一个包含 794 条测试用例的基准,用于评估自主安全事件响应代理,能够区分真实的取证调查与仅复述警报。该基准来源于 129 条匿名化的事件模式,并经专家验证的真实标签,SIR‑Bench 不仅衡量代理是否做出正确的分流决策,还衡量它们是否通过主动调查发现新证据。
为构建 SIR‑Bench,我们开发了 Once Upon A Threat (OUAT),一个在受控云环境中重放真实事件模式的框架,生成真实的遥测数据并提供可衡量的调查结果。我们的评估方法引入了三项互补指标:
- M1 – 分流准确率
- M2 – 新发现发现率
- M3 – 工具使用适当性
这些指标通过对抗性的 LLM‑as‑Judge 进行评估,该评审者颠倒举证责任——只有提供具体的取证证据才会给调查计分。
在基准上评估我们的 SIR 代理,展示了 97.1 % 的真阳性(TP)检测率、73.4 % 的假阳性(FP)拒绝率,以及 每例 5.67 项新关键发现,为未来的调查代理提供了可对比的基线。