[Paper] PenForge: 실시간 전문 에이전트 구축을 위한 자동 침투 테스트

발행: 1주 전 (2026년 1월 11일 오후 10:29 GMT+9)

8 min read

원문: arXiv

Source: arXiv - 2601.06910v1

Overview

PenForge는 자동화된 보안 테스트에서 오래된 문제점을 해결합니다: 정적이고 일괄적인 AI 에이전트는 복잡한 버그를 놓치거나 다양한 취약점 군에 대해 일반화하지 못합니다. 즉시 특화된 LLM‑driven 에이전트를 구축함으로써, PenForge는 각 대상 웹 애플리케이션의 고유한 컨텍스트에 맞춰 적응하며, 도전적인 zero‑day 벤치마크에서 익스플로잇 성공률을 세 배로 끌어올립니다.

주요 기여

Dynamic expert‑agent construction: 침투 테스트 중에 사전 정의하는 대신 상황에 맞는 LLM 에이전트를 생성하는 파이프라인을 도입.
Integrated reconnaissance‑to‑exploitation loop: 공격 표면을 자동으로 탐색하고, 가장 관련성 높은 전문성을 선택하며, 맞춤형 에이전트를 생성해 익스플로잇을 수행.
Empirical breakthrough: CVE‑Bench 제로‑데이 스위트에서 30 % 익스플로잇 성공률(12/40)을 달성, 기존 최고 LLM‑기반 시스템 대비 약 3× 향상.
Open research agenda: 도구 사용 지식 강화, 벤치마크 범위 확대, 인간‑인‑루프 검토 설명 가능성 등 세 가지 구체적인 향후 연구 방향을 제시.

방법론

Automated Reconnaissance – PenForge는 먼저 가벼운 스캐너(예: OWASP ZAP, 맞춤형 크롤러)를 실행하여 엔드포인트, 매개변수 및 기술 스택을 매핑합니다.
Context Extraction – 수집된 데이터는 대형 언어 모델에 입력되어 주요 단서를 추출합니다(예: “구버전 jQuery 사용”, “관리자 API 노출”).
On‑the‑Fly Agent Synthesis – 이러한 단서를 기반으로 PenForge는 LLM에 적절한 익스플로잇 전술과 도구 명령을 갖춘 micro‑agent를 생성하도록 프롬프트합니다(예: SQLi 페이로드 생성기, XSS 페이로드, Metasploit 모듈).
Execution & Feedback – 마이크로‑에이전트는 대상에 대해 제작된 페이로드를 실행하고 응답을 모니터링하며, 단기 메모리 버퍼를 사용해 접근 방식을 반복적으로 개선합니다.
Result Aggregation – 성공적인 익스플로잇은 로그에 기록되며, 시스템은 필요에 따라 이를 인간 분석가에게 전달하여 검증하도록 할 수 있습니다.

전체 파이프라인은 자동으로 실행되지만, 각 단계는 모듈식으로 설계되어 개발자가 대체 스캐너, LLM 백엔드 또는 맞춤형 툴킷으로 교체할 수 있습니다.

결과 및 발견

Success Rate: 40개의 제로‑데이 CVE 중 12개가 완전히 악용되었으며, 성공률은 30 %로 이전 최고 LLM‑기반 테스터의 약 10 %와 비교됩니다.
Speed: 취약점당 평균 악용 시간이 ~8 분(정적 에이전트)에서 ~4 분으로 감소했으며, 이는 생성된 에이전트의 목표 지향성 덕분입니다.
Diversity: PenForge는 정적 에이전트가 좁은 하위 집합에서만 뛰어났던 것과 달리, SQL 인젝션, SSRF, 역직렬화 버그 등 더 넓은 취약점 클래스에서 성공을 거두었습니다.
Failure Analysis: 대부분의 놓친 악용은 잘 알려지지 않은 서드‑파티 도구(예: 특수 퍼저)에 대한 지식 부족과 모호한 정찰 데이터로 인해 에이전트 특화가 최적이 아니게 된 경우에서 비롯되었습니다.

Practical Implications

Scalable Red‑Team Automation: 보안 팀은 PenForge를 “지속적인 침투 테스트” 서비스로 배포하여 각 구성 요소마다 테스트 스크립트를 수작업으로 만들지 않고도 새로운 코드 릴리스에 자동으로 적응할 수 있습니다.
Developer‑Friendly Findings: 각 익스플로잇이 상황 인식 에이전트에 의해 생성되므로, 결과물인 개념 증명 페이로드가 보다 현실적이며 개발자가 재현하고 패치하기가 더 쉽습니다.
Tool‑Chain Integration: PenForge의 모듈식 설계 덕분에 DevSecOps 파이프라인이 CI/CD 워크플로에 손쉽게 연결할 수 있으며, 스테이징 환경에서 자동으로 정찰‑익스플로잇 실행을 트리거합니다.
Cost Reduction: 일상적인 취약점 탐색에 대한 고위 수동 펜테스터 의존도를 낮춤으로써, 조직은 인적 전문성을 보다 높은 영향력의 위협 모델링 및 대응에 할당할 수 있습니다.
Foundation for Explainable AI Security: 실시간 에이전트가 추론 단계(정찰 → 단서 추출 → 에이전트 프롬프트 → 페이로드)를 기록하여, 감사인이나 컴플라이언스 담당자에게 제시할 수 있는 투명한 감사 로그를 제공합니다.

Source: …

제한 사항 및 향후 작업

도구 사용 지식 격차: LLM이 때때로 대상에 설치되지 않은 도구나 라이브러리를 전제로 하는 페이로드를 생성하여 익스플로잇 신뢰성을 저하시킵니다.
벤치마크 범위: 평가가 CVE‑Bench 스위트에 한정되어 있었으며, 보다 넓은 산업 규모 벤치마크(모바일, API‑first, 클라우드‑네이티브 서비스 포함)가 필요합니다.
설명 가능성 및 인간 감독: 로그는 생성되지만, 현재 시스템에는 보안 분석가가 검토하고 개입할 수 있는 정교한 UI가 부족합니다. 이는 완전 자동화된 테스트에 대한 신뢰 구축에 필수적입니다.

PenForge는 적응형 LLM‑구동 보안 자동화로의 유망한 전환을 보여주며, 그 개방형 연구 과제는 커뮤니티가 접근 방식을 다듬어 현대 소프트웨어 보안 무기고에 생산 준비가 된 신뢰할 수 있는 구성 요소로 만들도록 초대합니다.

저자

Huihui Huang
Jieke Shi
Junkai Chen
Ting Zhang
Yikun Li
Chengran Yang
Eng Lieh Ouh
Lwin Khin Shar
David Lo

논문 정보

arXiv ID: 2601.06910v1
카테고리: cs.SE
출판일: 2026년 1월 11일
PDF: PDF 다운로드

[Paper] PenForge: 실시간 전문 에이전트 구축을 위한 자동 침투 테스트

Overview

주요 기여

방법론

결과 및 발견

Practical Implications

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] Formal Methods 도구를 전자전 코드베이스에 적용 (경험 보고서)

[Paper] 설립을 위한 실용 가이드: Technical Debt Management

[Paper] RITA: 온라인 사용자 피드백을 통한 자동 요구사항 분류 및 명세 도구

[Paper] GitHub Actions 워크플로우에서의 자동화 및 재사용 관행: 실무자의 관점