Sir-Bench – 보안 사고 대응 에이전트 벤치마크

발행: (2026년 4월 17일 AM 05:14 GMT+9)
3 분 소요

Source: Hacker News

Abstract

우리는 실제 포렌식 조사를 진짜와 경보를 단순히 따라하는 행위와 구분하여 평가할 수 있는 794개의 테스트 케이스로 구성된 SIR‑Bench를 제시한다. 129개의 익명화된 사고 패턴을 전문가가 검증한 정답과 함께 도출한 SIR‑Bench는 에이전트가 올바른 트리아지 결정을 내리는지 여부뿐만 아니라, 능동적인 조사를 통해 새로운 증거를 발견하는지도 측정한다.

SIR‑Bench를 구축하기 위해 우리는 Once Upon A Threat (OUAT) 라는 프레임워크를 개발했으며, 이는 실제 사고 패턴을 제어된 클라우드 환경에서 재현하여 조사 결과를 측정할 수 있는 진짜 텔레메트리를 생성한다. 우리의 평가 방법론은 다음과 같은 세 가지 보완적인 지표를 도입한다:

  • M1 – 트리아지 정확도
  • M2 – 새로운 발견 탐지
  • M3 – 도구 사용 적절성

이 지표들은 증거 제시의 부담을 뒤집는 LLM‑as‑Judge라는 적대적 평가자를 통해 평가되며, 구체적인 포렌식 증거가 있을 때만 조사가 인정된다.

우리의 SIR 에이전트를 벤치마크에 적용한 결과, 97.1 %의 진양성(TP) 탐지, 73.4 %의 위양성(FP) 차단, 그리고 케이스당 평균 5.67개의 새로운 핵심 발견을 달성했으며, 이는 향후 조사 에이전트를 평가할 수 있는 기준선을 제공한다.

0 조회
Back to Blog

관련 글

더 보기 »

거의 모든 것을 위한 Codex

개요 우리는 Codex에 대한 대규모 업데이트를 출시합니다. 이를 통해 매주 300만 명이 넘는 개발자들이 가속화를 위해 사용하는 보다 강력한 파트너가 됩니다.