[Paper] In-Context 자율 네트워크 사고 대응: End-to-End Large Language Model 에이전트 접근법

발행: 3일 전 (2026년 2월 14일 오전 03:09 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2602.13156v1

Overview

이 논문은 14 억 파라미터 대형 언어 모델(LLM)을 기반으로 한 엔드‑투‑엔드 사고 대응 에이전트를 제시합니다. LLM의 사전 학습된 보안 지식과 인‑컨텍스트 학습을 활용함으로써, 시스템은 원시 네트워크 로그를 읽고, 현재 공격 상태를 추론하며, 완화 단계들을 계획하고, 응답을 실행할 수 있습니다—모두 수작업으로 만든 시뮬레이터 없이 가능합니다. 저자들은 이 경량 접근 방식이 일반 하드웨어에서도 실행될 수 있으며, 기존 LLM 기반 베이스라인보다 23 % 더 빠르게 사고를 복구할 수 있음을 보여줍니다.

주요 기여

Agentic architecture는 인식, 추론, 계획 및 행동을 단일 LLM 내에서 통합합니다.
In‑context adaptation loop: 모델은 시뮬레이션 결과와 실제 관찰을 비교하면서 공격 가설을 지속적으로 정제합니다.
Fine‑tuning + chain‑of‑thought prompting을 통해 LLM이 비구조화 로그를 파싱하고 구조화된 네트워크 상태 표현을 생성하도록 합니다.
Hardware‑friendly design: 14B 모델은 일반 GPU에 탑재될 수 있어 대규모 컴퓨팅 클러스터가 필요 없습니다.
Empirical evaluation: 공개된 사고 로그를 사용한 실증 평가에서 최신 LLM 에이전트 대비 복구 속도가 23 % 향상되었습니다.

Source: …

Methodology

Perception – LLM은 원시 시스템 로그와 알림을 텍스트 프롬프트로 받습니다. 체인‑오브‑생각(chain‑of‑thought) 추론을 사용해 핵심 엔터티(IP 주소, 타임스탬프, 오류 코드)를 추출하고 간결한 “네트워크 상태” 스냅샷을 구축합니다.
Reasoning – 모델은 관찰된 아티팩트를 사전 학습된 보안 지식 베이스와 매칭시켜 내부 공격‑모델 가설(예: “SMB 익스플로잇을 통한 횡방향 이동”)을 업데이트합니다.
Planning – 각 대응 조치(호스트 격리, 포트 차단, 자격 증명 재설정)를 수행한 후 네트워크 상태에 대한 “정신 시뮬레이션”을 스스로 프롬프트하여 대안 행동들의 영향을 시뮬레이션합니다.
Action – LLM은 구체적인 복구 명령(방화벽 규칙, 서비스 재시작, 포렌식 수집 스크립트)을 출력합니다.
Feedback Loop – 조치가 실행된 후 새로운 로그가 모델에 다시 입력됩니다. 시뮬레이션 결과와 실제 관찰 결과 사이의 불일치는 공격 가설의 수정으로 이어지며, 이 사이클은 사건이 완전히 격리될 때까지 반복됩니다.

전체 파이프라인은 경량 파인‑튜닝된 단일 LLM에 의해 구동되며, 이는 사건 대응 서술문을 선별적으로 수집한 코퍼스에 기반해 네 단계 워크플로우를 외부 오케스트레이션 구성 요소 없이 수행할 수 있게 합니다.

결과 및 발견

지표	제안된 14B LLM 에이전트	이전 LLM 베이스라인
평균 복구 시간 (MTTR)	23 % faster	Baseline
올바른 공격 모델에 수렴하기 위해 필요한 상호작용 사이클 수	2.1 ± 0.4	3.4 ± 0.7
하드웨어 footprint (GPU 메모리)	~12 GB (single GPU)	24 GB+ (multi‑GPU)
벤치마크 사고 로그(10건) 성공률	9/10 resolved	7/10 resolved

에이전트는 두 번의 추론 사이클 내에 일관되게 올바른 공격 벡터를 식별했으며, 경쟁 접근 방식보다 더 빠르게 침해를 차단하는 복구 단계를 생성했습니다. 특히, 시스템은 no hand‑crafted simulation environment가 전혀 필요 없었으며, LLM의 내부 지식만을 활용했습니다.

Practical Implications

Rapid deployment: 보안 팀은 표준 워크스테이션이나 클라우드 VM에서 즉각적인 사고 대응 봇을 신속하게 구축할 수 있어, RL 기반 시뮬레이터의 긴 설정 시간을 피할 수 있습니다.
Reduced engineering overhead: 별도의 공격 시뮬레이션 엔진을 유지할 필요가 없으며, LLM이 추론과 “what‑if” 분석을 모두 처리합니다.
Scalable to heterogeneous environments: 모델이 원시 로그에서 직접 작동하기 때문에, 클라우드 서비스, 컨테이너 오케스트레이터, 온프레미스 방화벽 등 다양한 환경의 데이터를 맞춤 파서 없이도 수집할 수 있습니다.
Augmented SOC workflows: 에이전트가 “1차 분석가” 역할을 수행하여 간결한 공격 가설과 권장 조치를 제시하고, 인간 분석가가 검토하도록 함으로써 삼각 측정 시간을 단축합니다.
Cost‑effective: 14B 모델을 단일 GPU에서 실행하는 비용이 대규모 RL 학습 클러스터를 유지하는 비용보다 훨씬 저렴해, 중소 규모 기업도 자율 대응을 활용할 수 있습니다.

제한 사항 및 향후 작업

프롬프트 품질 의존성: 로그가 크게 난독화되었거나 중요한 필드가 누락된 경우 에이전트 성능이 저하됩니다; 견고한 전처리 파이프라인이 여전히 필요합니다.
설명 가능성: 체인‑오브‑쓰루(chain‑of‑thought) 출력이 어느 정도 투명성을 제공하지만, 근본적인 추론은 블랙박스 LLM으로 남아 있어 규제 산업에서 감사 가능성을 저해할 수 있습니다.
도메인 적응: 파인‑튜닝 데이터셋은 일반적인 기업 공격을 포괄하지만, 새로운 혹은 고도로 표적화된 위협은 추가적인 도메인‑특화 데이터가 필요할 수 있습니다.
대규모 네트워크 확장성: 현재 설계는 로그를 순차적으로 처리합니다; 향후 작업에서는 계층적 프롬프트 또는 검색‑증강 모델을 탐색하여 페타바이트 규모 텔레메트리를 처리할 수 있습니다.

저자들은 최신 위협 인텔리전스 피드를 통합하기 위해 **retrieval‑augmented generation (RAG)**을 사용해 프레임워크를 확장하고, 자율성과 규정 준수 요구사항의 균형을 맞추기 위해 human‑in‑the‑loop verification을 통합할 것을 제안합니다.

저자

Yiran Gao
Kim Hammar
Tao Li

논문 정보

arXiv ID: 2602.13156v1
분류: cs.CR, cs.AI
출판일: 2026년 2월 13일
PDF: PDF 다운로드

[Paper] In-Context 자율 네트워크 사고 대응: End-to-End Large Language Model 에이전트 접근법

Overview

주요 기여

Methodology

결과 및 발견

Practical Implications

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] 효과적인 것을 모방하기: Simulation-Filtered Modular Policy Learning from Human Videos

[Paper] 의미론적 청킹과 자연 언어의 엔트로피

[Paper] Jhelum 및 Chenab 강 유역에서 지역 강수량 예측 및 기후 변화 평가를 위한 CMIP6 모델 선택

[Paper] Online Mirror Descent에 대한 향상된 Regret Guarantees, Mirror Maps 포트폴리오 사용