[Paper] 실제 환경 침투 테스트를 위한 좋은 LLM 에이전트는 무엇인가?

발행: 3일 전 (2026년 2월 20일 오전 03:42 GMT+9)

10 분 소요

원문: arXiv

Source: arXiv - 2602.17622v1

개요

이 논문은 실제 침투 테스트 과제에서 대형 언어 모델(LLM) 에이전트가 왜 이렇게 일관성 없이 동작하는지를 조사합니다. 기존 시스템 28개를 분석하고 대표적인 에이전트 5개를 테스트함으로써, 저자들은 두 가지 근본적인 실패 모드를 규명하고 Excalibur라는 새로운 에이전트를 제안합니다. 이 에이전트는 강력한 도구와 “난이도 인식” 플래닝을 결합하여 공격 성공률을 크게 향상시킵니다.

주요 기여

실패에 대한 체계적 분류: 도구 및 프롬프트 격차인 Type A와 계획 및 상태‑관리 격차인 Type B 실패를 다양한 LLM‑기반 침투 테스트 에이전트에서 식별합니다.
Type B 실패의 근본 원인 분석: 모델 크기에 관계없이 모든 에이전트가 실시간 작업 난이도 추정이 부족함을 보여주며, 이는 노력 낭비와 컨텍스트 오버플로우를 초래합니다.
Excalibur 아키텍처:
- Tool & Skill Layer – 타입이 지정된 인터페이스와 검색 강화 지식을 제공하여 Type A 실패를 제거합니다.
- Task Difficulty Assessment (TDA) – 네 가지 차원(시간 범위, 증거 신뢰도, 컨텍스트 부하, 과거 성공)을 정량화하여 각 하위 작업의 수행 가능성을 추정합니다.
- Evidence‑Guided Attack Tree Search (EGATS) – TDA 점수를 활용해 공격 계획 시 탐색과 활용의 균형을 맞춥니다.
실증적 검증: CTF 벤치마크에서 최대 91 % 작업 완료율을 달성(39‑49 % 상대 향상)하고, GOAD Active Directory 환경에서 5대 중 4대 호스트를 장악하여 기존 최첨단 에이전트를 능가합니다.
스케일링 한계에 대한 통찰: 단순히 더 큰 LLM을 사용하는 것만으로는 Type B 실패를 해결할 수 없으며, 지능적인 계획이 필요함을 보여줍니다.

방법론

조사 및 분류 – 공개된 28개의 LLM‑기반 펜테스팅 시스템을 수집하고, 이들의 아키텍처, 도구 세트, 프롬프트 전략을 분류했습니다.
벤치마크 스위트 – 점진적으로 난이도가 증가하는 세 가지 테스트베드를 구축했습니다:
- 간단한 CTF‑스타일 챌린지(단일 단계 익스플로잇).
- 상태 추적이 필요한 다단계 공격 체인.
- 현실적인 기업 시나리오(GOAD Active Directory).
실패 모드 진단 – 각 에이전트의 실패 원인을 누락된 기능(Type A) 또는 의사결정 및 컨텍스트 처리 부실(Type B)로 추적했습니다.
Excalibur 설계 –
- Tool & Skill Layer는 타입이 지정된 API 카탈로그(예: 포트 스캐너, 자격 증명 덤퍼)를 제공하고, 보안 데이터베이스에서 가져온 지식으로 프롬프트를 보강합니다.
- Task Difficulty Assessment는 후보 하위 작업마다 다음을 이용해 스칼라 난이도 점수를 계산합니다:
  - Horizon estimation (필요한 단계 수)
  - Evidence confidence (수집된 정보의 확신도)
  - Context load (소모된 프롬프트/컨텍스트 크기)
  - Historical success (유사 작업에 대한 과거 성공률)
- EGATS는 이러한 점수를 활용해 공격 트리에서 비용이 낮고 가치가 높은 가지를 우선순위화하고, 컨텍스트 한도를 초과하는 경로를 가지치기합니다.
평가 – 세 가지 벤치마크에서 Excalibur와 기본 에이전트를 실행하여 작업 완료 비율, 침해된 호스트 수, LLM 토큰 사용량을 측정했습니다.

결과 및 발견

벤치마크	기준 평균 완료율	Excalibur 완료율	상대 증가
Simple CTF	~55 %	91 %	+39 %
Multi‑step CTF	~48 %	84 %	+46 %
GOAD AD (5 hosts)	2 compromised	4 compromised	+100 %

토큰 효율성: Difficulty‑aware pruning(난이도 인식 프루닝)으로 컨텍스트 오버플로우가 약 30 % 감소하여, LLM이 토큰 제한 내에 더 오래 머무를 수 있게 했습니다.
모델에 구애받지 않는 개선: 성과가 최첨단 LLM(GPT‑4, Claude‑2, Llama‑2‑70B) 전반에 걸쳐 일관되게 나타나, 이 이점이 모델 크기가 아니라 계획에서 비롯된 것임을 확인했습니다.
실패 감소: 표준화된 도구 레이어 덕분에 Type A 실패가 거의 제로에 가까워졌으며, TDA를 통합한 후 Type B 실패가 70 % 이상 감소했습니다.

실용적 함의

보다 신뢰할 수 있는 자동 레드팀 도구: 보안 팀은 현재 LLM 봇의 높은 오탐률 없이 내부 자산을 지속적으로 탐색하기 위해 Excalibur 스타일 에이전트를 채택할 수 있습니다.
비용 효율적인 침투 테스트: 토큰 낭비를 피함으로써 조직은 저렴한 LLM API를 사용해 대규모 평가를 수행하면서도 깊은 커버리지를 달성할 수 있습니다.
다른 분야를 위한 프레임워크: 난이도 인식 계획 패러다임은 작업 분기와 컨텍스트 제한이 중요한 DevOps(예: 자동 사고 대응), 코드 합성, 데이터 파이프라인 오케스트레이션 분야의 LLM 에이전트에 적용할 수 있습니다.
기존 도구와의 향상된 통합: 타입이 지정된 Tool & Skill Layer는 보안 프레임워크(Metasploit, Nmap, BloodHound)와 자연스럽게 맞물려 CI/CD 파이프라인에서 지속적인 보안 검증을 위한 배포를 간소화합니다.

제한 사항 및 향후 작업

도메인 특이성: 현재 구현은 네트워크‑레벨 침투 테스트에 초점을 맞추고 있으며, 웹‑애플리케이션이나 클라우드‑네이티브 공격 표면으로 확장하려면 새로운 도구 추상화가 필요할 수 있습니다.
난이도 메트릭 보정: TDA는 저자들의 벤치마크에 맞춰 조정된 휴리스틱(예: horizon estimation)에 의존합니다; 다양한 기업 환경에 대한 보다 폭넓은 검증이 필요합니다.
실시간 적응: Excalibur는 실행 전에 난이도를 추정하지만, 예상치 못한 증거가 나타났을 때 즉시 조정하지는 못합니다—이는 향후 연구의 유망한 방향입니다.
인간 개입 안전성: 논문은 고성능 에이전트의 악의적 오용에 대한 방어책을 다루지 않으며, 정책‑기반 제약을 통합하는 것이 열린 과제입니다.

저자

Gelei Deng
Yi Liu
Yuekang Li
Ruozhao Yang
Xiaofei Xie
Jie Zhang
Han Qiu
Tianwei Zhang

논문 정보

arXiv ID: 2602.17622v1
분류: cs.CR, cs.SE
출판일: 2026년 2월 19일
PDF: Download PDF

[Paper] 실제 환경 침투 테스트를 위한 좋은 LLM 에이전트는 무엇인가?

개요

주요 기여

방법론

결과 및 발견

실용적 함의

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] 요구사항 공학에서 자연어 처리 도구를 위한 Software Reference Architecture 구축을 향하여

[Paper] 자기 적응 시스템에서 윤리의 런타임 차원

[Paper] 양자 소프트웨어 커뮤니티의 사회기술적 웰빙: 커뮤니티 스멜에 대한 개요

[Paper] HTML 우선 웹 개발의 필요성