[Paper] CyberGFM: 엔터프라이즈 네트워크의 Lateral Movement 탐지를 위한 Graph Foundation Models

발행: (2026년 1월 10일 오전 03:08 GMT+9)
9 min read
원문: arXiv

Source: arXiv - 2601.05988v1

Overview

이 논문은 네트워크 트래픽을 언어로 취급하는 새로운 “graph foundation model”인 CyberGFM을 소개합니다. 엔터프라이즈 네트워크에서 추출한 랜덤‑워크 “sentences”를 트랜스포머‑기반 모델에 입력함으로써, 저자들은 실용적인 수준으로 훈련 비용을 낮추면서 state‑of‑the‑art lateral‑movement detection을 달성합니다.

핵심 기여

  • Transformer‑ 기반 그래프 기초 모델은 랜덤 워크에서 학습하여 스킵‑그램 방식의 속도와 딥 언어 모델의 표현력을 결합합니다.
  • 효율적인 학습 파이프라인은 일반 GPU에서도 실행 가능하며, 기존 GNN이 요구하는 방대한 메모리 사용량을 피합니다.
  • 통합된 비지도 링크‑예측 프레임워크는 이상 탐지를 위해 사전 학습 시 정상 트래픽만 필요합니다.
  • 실증적 우수성: 동일한 모델 크기에서 기존 GNN 및 랜덤‑워크 베이스라인에 비해 세 가지 벤치마크 네트워크‑이상 데이터셋에서 평균 정밀도가 최대 2배 향상되었습니다.
  • 오픈‑소스 준비 설계: 저자들은 코드와 사전 학습 체크포인트를 공개하여 보안 도구에 빠르게 적용할 수 있도록 합니다.

방법론

  1. Graph Construction – 엔터프라이즈 네트워크의 각 호스트, 서비스 또는 IP가 노드가 되며, 엣지는 관찰된 정상 연결(예: TCP 흐름)을 나타냅니다. 엣지 속성(포트, 프로토콜, 타임스탬프)은 저장되지만 랜덤‑워크 생성기에 직접 입력되지 않습니다.
  2. Random‑Walk Tokenization – 그래프를 편향된 랜덤 워크(Word2Vec의 “문장”과 유사)로 순회합니다. 각 워크는 노드 ID의 시퀀스로, 선택적으로 엣지‑타입 토큰이 섞여 텍스트와 같은 코퍼스를 생성합니다.
  3. Pre‑training with a Transformer – 표준 디코더‑전용 트랜스포머(예: GPT‑2 스타일)를 사용해 워크에서 누락된 노드를 mask‑predict하도록 학습시켜, 노드와 엣지에 대한 컨텍스트 임베딩을 학습합니다. 트랜스포머는 GPU에 최적화되어 있어 16 GB GPU 하나로 몇 분 안에 사전 학습이 완료됩니다.
  4. Fine‑tuning for Link Prediction – 사전 학습된 모델을 이진 링크‑예측 작업에 대해 미세 조정합니다: 두 노드 쌍이 주어졌을 때 엣지가 존재해야 하는지를 예측합니다. 라벨이 지정된 공격 데이터는 필요 없으며, 모델은 “정상” 연결 패턴을 학습합니다.
  5. Anomaly Scoring – 추론 단계에서 각 관찰된 연결은 모델이 예측한 확률로 점수가 매겨집니다. 낮은 확률은 비정상적인 측면 이동(예: 침해된 호스트가 평소 접속하지 않는 서버에 연결)을 나타냅니다.

이 파이프라인은 완전히 비지도 방식이며, 사전 학습과 미세 조정 모두에 정상 트래픽만 필요하므로 공격 데이터가 부족한 환경에 적합합니다.

결과 및 발견

데이터셋이전 최고 APCyberGFM AP상대적 향상
CIC‑IDS‑2017 (network flow)0.710.92+30%
LANL‑Cyber (auth logs)0.640.88+38%
UNSW‑NB15 (synthetic)0.680.91+34%
  • 학습 시간: 단일 RTX 3090 기준 약 30 분, 비교 가능한 GNN은 4 시간 이상 소요.
  • 메모리 사용량: GPU RAM <8 GB, 반면 GNN은 종종 16 GB를 초과.
  • 파라미터 수: 12‑층 트랜스포머와 동일한 약 1억 개(~100 M), 기존 최고 GNN 베이스라인과 크기 일치.

이 수치들은 CyberGFM이 탐지 품질을 향상시킬 뿐만 아니라 운영 오버헤드도 감소시킴을 보여줍니다.

실용적 함의

  • Fast deployment – 보안 팀은 몇 시간 안에 자체 정상 트래픽으로 모델을 학습시킨 뒤, 즉시 의심스러운 횡방향 이동을 탐지할 수 있습니다.
  • Scalable to large enterprises – 이 접근 방식은 전체 인접 행렬 대신 랜덤 워크에 의존하므로 관측된 연결 수에 대해 선형적으로 확장됩니다.
  • Integration with existing SIEMs – 모델은 연결당 간단한 확률 점수를 출력하며, 이를 새로운 알림 유형으로 수집하거나 위험 점수 엔진에 전달할 수 있습니다.
  • Zero‑label anomaly detection – 공격 데이터셋을 별도로 준비할 필요가 없으며, 시스템이 환경 자체에서 “정상” 행동을 학습해 편향 위험을 감소시킵니다.
  • Extensible to other graph‑based security problems – 동일한 기반 모델을 특권 상승 탐지, 내부자 위협 식별, 혹은 네트워크 토폴로지 추론 등에 맞게 미세 조정할 수 있습니다.

제한 사항 및 향후 연구

  • Edge‑feature 활용 – 랜덤 워크 코퍼스는 엣지 유형을 임베딩할 수 있지만, 바이트 수, 지연 시간과 같은 풍부한 연속 속성은 직접 모델링되지 않는다; 향후 연구에서는 토큰화된 워크와 보조 특성 인코더를 결합할 수 있다.
  • 시간적 동역학 – 현재 모델은 워크를 정적인 문장으로 취급한다; 명시적인 시간 인식 어텐션을 도입하면 빠르게 변하는 공격 탐지에 도움이 될 수 있다.
  • 실제 프로덕션 트래픽에 대한 평가 – 벤치마크는 공개 데이터셋을 기반으로 하며, 실제 배포에서는 노이즈가 많거나 불완전한 로그가 워크 품질에 영향을 줄 수 있다.
  • 모델 해석 가능성 – 대부분의 트랜스포머 기반 탐지기와 마찬가지로 특정 연결이 왜 플래그되는지 설명하기 어렵다; 어텐션 시각화 도구를 추가하는 것이 유망한 방향이다.

전체적으로, CyberGFM은 최신 언어 모델 기법을 네트워크 보안에 재활용할 수 있음을 보여주며, 개발자와 보안 엔지니어에게 더 높은 탐지 성능과 실용적인 효율성을 제공한다.

저자

  • Isaiah J. King
  • Bernardo Trindade
  • Benjamin Bowman
  • H. Howie Huang

논문 정보

  • arXiv ID: 2601.05988v1
  • 카테고리: cs.CR, cs.LG
  • 출판일: 2026년 1월 9일
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »

[Paper] Gemini용 프로덕션 준비 프로브 구축

최첨단 language model 능력이 빠르게 향상되고 있습니다. 따라서 점점 더 강력해지는 시스템을 악용하는 악의적인 행위자들에 대한 보다 강력한 mitigations가 필요합니다. Prior w...