[Paper] 실제 환경 침투 테스트를 위한 좋은 LLM 에이전트는 무엇인가?

발행: (2026년 2월 20일 오전 03:42 GMT+9)
10 분 소요
원문: arXiv

Source: arXiv - 2602.17622v1

개요

이 논문은 실제 침투 테스트 과제에서 대형 언어 모델(LLM) 에이전트가 왜 이렇게 일관성 없이 동작하는지를 조사합니다. 기존 시스템 28개를 분석하고 대표적인 에이전트 5개를 테스트함으로써, 저자들은 두 가지 근본적인 실패 모드를 규명하고 Excalibur라는 새로운 에이전트를 제안합니다. 이 에이전트는 강력한 도구와 “난이도 인식” 플래닝을 결합하여 공격 성공률을 크게 향상시킵니다.

주요 기여

  • 실패에 대한 체계적 분류: 도구 및 프롬프트 격차인 Type A와 계획 및 상태‑관리 격차인 Type B 실패를 다양한 LLM‑기반 침투 테스트 에이전트에서 식별합니다.
  • Type B 실패의 근본 원인 분석: 모델 크기에 관계없이 모든 에이전트가 실시간 작업 난이도 추정이 부족함을 보여주며, 이는 노력 낭비와 컨텍스트 오버플로우를 초래합니다.
  • Excalibur 아키텍처:
    • Tool & Skill Layer – 타입이 지정된 인터페이스와 검색 강화 지식을 제공하여 Type A 실패를 제거합니다.
    • Task Difficulty Assessment (TDA) – 네 가지 차원(시간 범위, 증거 신뢰도, 컨텍스트 부하, 과거 성공)을 정량화하여 각 하위 작업의 수행 가능성을 추정합니다.
    • Evidence‑Guided Attack Tree Search (EGATS) – TDA 점수를 활용해 공격 계획 시 탐색과 활용의 균형을 맞춥니다.
  • 실증적 검증: CTF 벤치마크에서 최대 91 % 작업 완료율을 달성(39‑49 % 상대 향상)하고, GOAD Active Directory 환경에서 5대 중 4대 호스트를 장악하여 기존 최첨단 에이전트를 능가합니다.
  • 스케일링 한계에 대한 통찰: 단순히 더 큰 LLM을 사용하는 것만으로는 Type B 실패를 해결할 수 없으며, 지능적인 계획이 필요함을 보여줍니다.

방법론

  1. 조사 및 분류 – 공개된 28개의 LLM‑기반 펜테스팅 시스템을 수집하고, 이들의 아키텍처, 도구 세트, 프롬프트 전략을 분류했습니다.
  2. 벤치마크 스위트 – 점진적으로 난이도가 증가하는 세 가지 테스트베드를 구축했습니다:
    • 간단한 CTF‑스타일 챌린지(단일 단계 익스플로잇).
    • 상태 추적이 필요한 다단계 공격 체인.
    • 현실적인 기업 시나리오(GOAD Active Directory).
  3. 실패 모드 진단 – 각 에이전트의 실패 원인을 누락된 기능(Type A) 또는 의사결정 및 컨텍스트 처리 부실(Type B)로 추적했습니다.
  4. Excalibur 설계
    • Tool & Skill Layer는 타입이 지정된 API 카탈로그(예: 포트 스캐너, 자격 증명 덤퍼)를 제공하고, 보안 데이터베이스에서 가져온 지식으로 프롬프트를 보강합니다.
    • Task Difficulty Assessment는 후보 하위 작업마다 다음을 이용해 스칼라 난이도 점수를 계산합니다:
      • Horizon estimation (필요한 단계 수)
      • Evidence confidence (수집된 정보의 확신도)
      • Context load (소모된 프롬프트/컨텍스트 크기)
      • Historical success (유사 작업에 대한 과거 성공률)
    • EGATS는 이러한 점수를 활용해 공격 트리에서 비용이 낮고 가치가 높은 가지를 우선순위화하고, 컨텍스트 한도를 초과하는 경로를 가지치기합니다.
  5. 평가 – 세 가지 벤치마크에서 Excalibur와 기본 에이전트를 실행하여 작업 완료 비율, 침해된 호스트 수, LLM 토큰 사용량을 측정했습니다.

결과 및 발견

벤치마크기준 평균 완료율Excalibur 완료율상대 증가
Simple CTF~55 %91 %+39 %
Multi‑step CTF~48 %84 %+46 %
GOAD AD (5 hosts)2 compromised4 compromised+100 %
  • 토큰 효율성: Difficulty‑aware pruning(난이도 인식 프루닝)으로 컨텍스트 오버플로우가 약 30 % 감소하여, LLM이 토큰 제한 내에 더 오래 머무를 수 있게 했습니다.
  • 모델에 구애받지 않는 개선: 성과가 최첨단 LLM(GPT‑4, Claude‑2, Llama‑2‑70B) 전반에 걸쳐 일관되게 나타나, 이 이점이 모델 크기가 아니라 계획에서 비롯된 것임을 확인했습니다.
  • 실패 감소: 표준화된 도구 레이어 덕분에 Type A 실패가 거의 제로에 가까워졌으며, TDA를 통합한 후 Type B 실패가 70 % 이상 감소했습니다.

실용적 함의

  • 보다 신뢰할 수 있는 자동 레드팀 도구: 보안 팀은 현재 LLM 봇의 높은 오탐률 없이 내부 자산을 지속적으로 탐색하기 위해 Excalibur 스타일 에이전트를 채택할 수 있습니다.
  • 비용 효율적인 침투 테스트: 토큰 낭비를 피함으로써 조직은 저렴한 LLM API를 사용해 대규모 평가를 수행하면서도 깊은 커버리지를 달성할 수 있습니다.
  • 다른 분야를 위한 프레임워크: 난이도 인식 계획 패러다임은 작업 분기와 컨텍스트 제한이 중요한 DevOps(예: 자동 사고 대응), 코드 합성, 데이터 파이프라인 오케스트레이션 분야의 LLM 에이전트에 적용할 수 있습니다.
  • 기존 도구와의 향상된 통합: 타입이 지정된 Tool & Skill Layer는 보안 프레임워크(Metasploit, Nmap, BloodHound)와 자연스럽게 맞물려 CI/CD 파이프라인에서 지속적인 보안 검증을 위한 배포를 간소화합니다.

제한 사항 및 향후 작업

  • 도메인 특이성: 현재 구현은 네트워크‑레벨 침투 테스트에 초점을 맞추고 있으며, 웹‑애플리케이션이나 클라우드‑네이티브 공격 표면으로 확장하려면 새로운 도구 추상화가 필요할 수 있습니다.
  • 난이도 메트릭 보정: TDA는 저자들의 벤치마크에 맞춰 조정된 휴리스틱(예: horizon estimation)에 의존합니다; 다양한 기업 환경에 대한 보다 폭넓은 검증이 필요합니다.
  • 실시간 적응: Excalibur는 실행 전에 난이도를 추정하지만, 예상치 못한 증거가 나타났을 때 즉시 조정하지는 못합니다—이는 향후 연구의 유망한 방향입니다.
  • 인간 개입 안전성: 논문은 고성능 에이전트의 악의적 오용에 대한 방어책을 다루지 않으며, 정책‑기반 제약을 통합하는 것이 열린 과제입니다.

저자

  • Gelei Deng
  • Yi Liu
  • Yuekang Li
  • Ruozhao Yang
  • Xiaofei Xie
  • Jie Zhang
  • Han Qiu
  • Tianwei Zhang

논문 정보

  • arXiv ID: 2602.17622v1
  • 분류: cs.CR, cs.SE
  • 출판일: 2026년 2월 19일
  • PDF: Download PDF
0 조회
Back to Blog

관련 글

더 보기 »