[Paper] RPG-AE: 희귀 패턴 마이닝을 활용한 Provenance 기반 이상 탐지를 위한 Neuro‑Symbolic Graph Autoencoders

발행: (2026년 2월 3일 오전 09:02 GMT+9)
9 분 소요
원문: arXiv

Source: arXiv - 2602.02929v1

번역할 텍스트를 제공해 주시면 한국어로 번역해 드리겠습니다.

개요

The paper introduces RPG‑AE, a hybrid “neuro‑symbolic” system that blends deep graph representation learning with classic rare‑pattern mining to spot Advanced Persistent Threats (APTs) in system‑level provenance logs. By turning process interactions into a graph, learning its normal structure with a Graph Autoencoder (GAE), and then amplifying suspicious signals with infrequent behavior patterns, the authors achieve state‑of‑the‑art detection on the DARPA Transparent Computing benchmark.

Key Contributions

  • Neuro‑symbolic architecture: 그래프 오토인코더(딥러닝)와 희귀 패턴 마이닝 모듈(심볼릭 AI)을 단일 파이프라인에 결합합니다.
  • k‑NN‑based provenance graph construction: 특징 유사성을 이용해 프로세스 행동 그래프를 구축하며, 시간적 및 관계적 컨텍스트를 모두 보존합니다.
  • Anomaly scoring via reconstruction error + rarity boost: 학습된 정상 그래프와의 차이를 재구성 오류로 감지하고, 드물게 관찰되는 공동 발생을 보이는 프로세스에 대해 점수를 상승시킵니다.
  • Comprehensive evaluation: 순수 GAE 베이스라인 대비 상당한 개선을 보여주며, DARPA TC 데이터셋에서 다중 비지도 탐지기 앙상블에 비해 경쟁력 있는 결과를 나타냅니다.
  • Interpretability hook: 희귀 패턴 구성 요소는 프로세스가 표시된 이유를 설명하는 인간이 읽을 수 있는 서명을 제공하여 딥 모델의 “블랙박스” 격차를 메웁니다.

방법론

  1. Data preprocessing – 시스템 수준의 provenance 이벤트(예: 파일 읽기, 네트워크 소켓)를 각 프로세스에 대한 특징 벡터(CPU 사용량, I/O 카운트, 시스템 콜 빈도 등)로 인코딩합니다.
  2. Graph construction – 각 시간 창에 대해 k‑Nearest Neighbors (k‑NN) 그래프를 구축합니다. 여기서 노드는 프로세스이며, 가장 유사한 k개의 프로세스와 특징 벡터 기반으로 연결됩니다. 이는 “누가 누구와 비슷하게 행동하는가”를 포착합니다.
  3. Graph Autoencoder (GAE) – 두 층의 Graph Convolutional Network (GCN) 인코더가 각 노드의 이웃을 저차원 임베딩으로 압축하고, 디코더는 인접 행렬을 복원하려 시도합니다. 복원 손실은 모델이 정상 관계 구조를 얼마나 잘 포착했는지를 측정합니다.
  4. Rare‑pattern mining – 별도로 시스템은 infrequent sub‑graphs(예: 파일 접근과 네트워크 호출의 특정 조합이 전체 창의 < 1 %에만 나타나는 경우)를 고전적인 빈발 아이템셋 알고리즘을 그래프에 맞게 변형하여 탐색합니다.
  5. Anomaly scoring – 특정 프로세스에 대해 최종 점수 = GAE 복원 오류 + 희소성 보정(프로세스가 탐지된 희귀 패턴에 포함된 경우). 보정값은 실제 이상 희귀 패턴이 정상적인 잡음보다 크게 평가되도록 조정됩니다.
  6. Ranking & alerting – 프로세스들을 복합 점수에 따라 순위 매기고, 상위 k를 분석가에게 제시합니다.

결과 및 발견

Metric (higher is better)GAE onlyRPG‑AE (GAE + rare boost)Best prior unsupervised method
AUROC0.840.920.88
AUPRC0.310.480.42
Mean Rank of APT events572235
  • Rare‑pattern boosting 은 기본 GAE 대비 실제 APT 프로세스의 순위를 약 60 % 향상시킵니다.
  • 단일 RPG‑AE 모델은 3–4개의 별도 탐지기를 결합한 앙상블 접근법과 동등하거나 그 이상이며, 훨씬 적은 엔지니어링 오버헤드만 요구합니다.
  • 정성적 분석 결과, 높은 점수를 받은 많은 알림이 알려진 APT 전술(예: 드문 IPC 채널을 통한 횡방향 이동)과 일치하여 해석 가능성 이점을 확인했습니다.

실용적인 시사점

  • Plug‑and‑play anomaly detector: 보안 팀은 RPG‑AE를 기존 프로비넌스 수집 파이프라인(예: Sysdig, Falco, 또는 OS‑레벨 감사 로그)에 드롭인 모듈로 배포할 수 있으며, 여러 특화 모델을 별도로 학습할 필요가 없습니다.
  • Reduced alert fatigue: 가장 희귀한 의심스러운 패턴을 드러냄으로써 시스템은 실제 위협일 가능성이 높은 알림에 우선순위를 부여하고, SOC 분석가가 고부가가치 조사에 집중하도록 돕습니다.
  • Explainable alerts: 희귀 패턴 구성 요소는 간결한 “왜”를 제공하며(예: “프로세스 X가 DNS 쿼리와 특권 파일 쓰기의 희귀한 조합을 수행함”), 이를 티켓 시스템이나 자동화된 대응 플레이북에 바로 연동할 수 있습니다.
  • Scalable to large environments: k‑NN 그래프는 슬라이딩 윈도우마다 구축되며, GAE는 노드 수에 따라 선형적으로 확장됩니다; 희귀 패턴 마이닝은 지원 임계값을 조정함으로써 속도를 제어할 수 있어 클라우드 네이티브 마이크로서비스 클러스터에서도 적용 가능하게 합니다.
  • Foundation for downstream defenses: 학습된 임베딩은 위협 헌팅, 횡방향 이동 탐지, 또는 강화 학습 기반 대응 에이전트에 활용될 수 있습니다.

제한 사항 및 향후 작업

  • 프로비넌스 데이터 품질에 대한 의존성 – 누락되거나 잡음이 섞인 로그는 그래프 구조와 희소성 통계 모두를 악화시킵니다.
  • 정적 희소성 임계값 – 현재 마이닝 단계는 고정된 지원 기준을 사용합니다; 적응형 임계값은 변화하는 기준선을 더 잘 처리할 수 있습니다.
  • 시간적 세분성 – 이 방법은 윈도우를 독립적으로 처리하므로 다중 윈도우 공격 체인을 놓칠 수 있습니다; 순환 또는 시간적 GNN을 통합하는 것이 유망한 방향입니다.
  • DARPA TC에 한정된 평가 – 벤치마크는 엄격하지만, 실제 기업 데이터셋(예: Microsoft Azure, Google Cloud)에서의 더 폭넓은 검증은 일반성에 대한 주장을 강화할 것입니다.

핵심 요약: RPG‑AE는 딥 그래프 학습과 고전 패턴 마이닝을 결합하면 프로비넌스 기반 APT 탐지를 위한 보다 정확하고, 해석 가능하며, 운영 친화적인 솔루션을 제공한다는 것을 보여줍니다—개발자와 보안 엔지니어가 오늘 바로 실험을 시작할 수 있는 접근 방식입니다.

저자

  • Asif Tauhid
  • Sidahmed Benabderrahmane
  • Mohamad Altrabulsi
  • Ahamed Foisal
  • Talal Rahwan

논문 정보

  • arXiv ID: 2602.02929v1
  • 분류: cs.LG, cs.AI, cs.CR, cs.NE
  • 출판일: 2026년 2월 3일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »

[논문] Pseudo-Invertible Neural Networks

Moore‑Penrose Pseudo‑inverse (PInv)는 선형 시스템에 대한 근본적인 해법으로 작용한다. 본 논문에서는 PInv의 자연스러운 일반화를 제안한다.