[논문] MalSkillBench: 악성 에이전트 기술의 런타임 검증 벤치마크

발행: (2026년 6월 5일 PM 07:43 GMT+9)
5 분 소요
원문: arXiv

Source: arXiv - 2606.07131v1

개요

Claude Code와 Gemini CLI와 같은 AI 코딩 에이전트는 점점 더 서드파티 스킬을 통해 확장되고 있습니다. 이러한 스킬은 마크다운 패키지 형태로 자연어 명령, 실행 가능한 스크립트, 도구 권한을 함께 번들링합니다. 스킬은 동시에 코드이면서 에이전트가 해석하는 명령이기 때문에, 순수 코드도 아니고 순수 프롬프트도 아닌 공급망 의존성을 도입합니다. 이 하이브리드 영역을 아우르는 검증된 실제 데이터를 기반으로 한 평가가 없었기 때문에, 기존 탐지 도구들의 효과는 알 수 없으며, 야생 데이터만을 이용한 평가는 편향될 수밖에 없습니다. 우리는 악성 에이전트 스킬을 런타임에서 검증한 최초의 벤치마크 MalSkillBench를 제시합니다. 이 벤치마크는 108개의 셀로 구성된 3차원 분류 체계에 따라 라벨링된 3,944개의 악성 스킬을 포함합니다. 이 중 3,214개는 폐쇄형 Generate‑Verify‑Feedback 파이프라인을 통해 생성되었으며, 악성 행동이 Docker 샌드박스 내 시스템 콜 모니터링과 LLM 판정 아래에서 실제로 발생하는 샘플만을 허용합니다. 추가로 야생에서 수집한 703개와 4,000개의 매칭된 정상 스킬을 포함했습니다. 우리의 측정 결과는 일관됩니다: 코드 인젝션은 94.5%의 검증 성공률을 보이지만 프롬프트 인젝션은 75.8%에 불과해, 나중에 탐지가 어려워지는 동일한 취약점을 드러냅니다. 야생 샘플은 한 가지 암호화폐 절도 캠페인에 편중되어 있으며(86.6%가 동일 행동, 81%가 두 계정에서 발생), 에이전트 제어 평면을 공격하는 새로운 구조적 변이도 소수 존재합니다. 가장 강력한 스킬‑특화 탐지기는 코드 인젝션에 대해 98.4%의 재현율을 기록하지만 프롬프트 인젝션 및 에이전트 제어 공격에서는 급격히 성능이 떨어지고, 야생 데이터만을 사용한 평가는 순위에 최대 66 포인트의 재현율 차이를 초래합니다. 공급망 스캐너와 프롬프트 인젝션 방어 메커니즘은 각각 스킬의 절반 정도만을 탐지하며, 어떠한 조합도 코드와 명령 사이의 관계를 복원하지 못합니다. 따라서 악성 스킬을 탐지하려면 작업 의도, 코드, 명령을 동시에 고려하는 추론이 필요합니다. 우리는 데이터셋, 파이프라인, 베이스라인, 그리고 결과를 공개합니다.

핵심 기여

이 논문은 다음 분야의 연구를 제시합니다.

  • cs.CR
  • cs.SE

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

본 연구는 cs.CR 분야의 발전에 기여합니다.

저자

  • Wenbo Guo
  • Wei Zeng
  • Chengwei Liu
  • Xiaojun Jia
  • Yijia Xu
  • Lei Tang
  • Yong Fang
  • Yang Liu

논문 정보

  • arXiv ID: 2606.07131v1
  • 분류: cs.CR, cs.SE
  • 발표일: 2026년 6월 5일
  • PDF: Download PDF
0 조회
Back to Blog

관련 글

더 보기 »