Sir-Bench – 安全事件响应代理基准

发布: 3周前 (2026年4月17日 GMT+8 04:14)

2 分钟阅读

Source: Hacker News

Abstract

我们提出 SIR‑Bench，一个包含 794 条测试用例的基准，用于评估自主安全事件响应代理，能够区分真实的取证调查与仅复述警报。该基准来源于 129 条匿名化的事件模式，并经专家验证的真实标签，SIR‑Bench 不仅衡量代理是否做出正确的分流决策，还衡量它们是否通过主动调查发现新证据。

为构建 SIR‑Bench，我们开发了 Once Upon A Threat (OUAT)，一个在受控云环境中重放真实事件模式的框架，生成真实的遥测数据并提供可衡量的调查结果。我们的评估方法引入了三项互补指标：

M1 – 分流准确率
M2 – 新发现发现率
M3 – 工具使用适当性

这些指标通过对抗性的 LLM‑as‑Judge 进行评估，该评审者颠倒举证责任——只有提供具体的取证证据才会给调查计分。

在基准上评估我们的 SIR 代理，展示了 97.1 % 的真阳性（TP）检测率、73.4 % 的假阳性（FP）拒绝率，以及 每例 5.67 项新关键发现，为未来的调查代理提供了可对比的基线。

Sir-Bench – 安全事件响应代理基准

Abstract

相关文章

Monero 社区众筹系统

OpenAI 广告合作伙伴现已基于“提示相关性”销售 ChatGPT 广告位

Show HN: Holos – QEMU/KVM 与 compose-style YAML、GPUs 和健康检查

NASA 必须训练 Apollo 11 的宇航员不使用脏话