Sir-Bench – 安全事件响应代理基准

发布: (2026年4月17日 GMT+8 04:14)
2 分钟阅读

Source: Hacker News

Abstract

我们提出 SIR‑Bench,一个包含 794 条测试用例的基准,用于评估自主安全事件响应代理,能够区分真实的取证调查与仅复述警报。该基准来源于 129 条匿名化的事件模式,并经专家验证的真实标签,SIR‑Bench 不仅衡量代理是否做出正确的分流决策,还衡量它们是否通过主动调查发现新证据。

为构建 SIR‑Bench,我们开发了 Once Upon A Threat (OUAT),一个在受控云环境中重放真实事件模式的框架,生成真实的遥测数据并提供可衡量的调查结果。我们的评估方法引入了三项互补指标:

  • M1 – 分流准确率
  • M2 – 新发现发现率
  • M3 – 工具使用适当性

这些指标通过对抗性的 LLM‑as‑Judge 进行评估,该评审者颠倒举证责任——只有提供具体的取证证据才会给调查计分。

在基准上评估我们的 SIR 代理,展示了 97.1 % 的真阳性(TP)检测率73.4 % 的假阳性(FP)拒绝率,以及 每例 5.67 项新关键发现,为未来的调查代理提供了可对比的基线。

0 浏览
Back to Blog

相关文章

阅读更多 »

Monero 社区众筹系统

Ideas ANONERO 持续开发 作者:r4v3r23 日期:2026年4月20日 ProbeLab P2P 网络指标提案 作者:dennis-tra 日期:2026年4月9日 monero.ec...