우리는 Agentic AI를 525개의 실제 공격에 대해 테스트했습니다. 우리가 발견한 내용은 다음과 같습니다.

발행: 1개월 전 (2026년 3월 13일 오후 01:14 GMT+9)

7 분 소요

원문: Dev.to

Source: Dev.to

(번역을 진행하려면 번역하고자 하는 전체 텍스트를 제공해 주세요.)

소개

우리는 수치를 분석했습니다. 위협은 실제입니다.

지난 몇 달 동안 우리는 Cerberus를 구축하고 검증해 왔습니다 — 에이전트형 AI 시스템을 위한 오픈소스 런타임 보안 하니스입니다. 이는 우리가 Lethal Trifecta라고 부르는 특정 위협 모델을 중심으로 설계되었습니다: 단일 AI 실행 턴 내에서 특권 데이터 접근, 신뢰할 수 없는 콘텐츠 주입, 그리고 외부 유출 경로가 동시에 수렴하는 상황.

우리는 이제 막 첫 번째 공식 검증을 마쳤습니다: 세 주요 AI 제공업체를 대상으로 525개의 공격 시도. 아래는 주요 결과입니다.

공격 성공률

전체 주입 준수 – 에이전트가 공격자의 주소로 완전히 리디렉션됨

모델	성공률	95 % CI	인과 점수
GPT‑4o‑mini	90.3 %	84.8 % – 93.9 %	0.811
Gemini 2.5 Flash	82.4 %	75.9 % – 87.5 %	0.702
Claude Sonnet	6.7 %	3.8 % – 11.5 %	0.207

대조군: 모든 제공업체에서 30건 중 0건의 데이터 유출 (청정 기준).
통계적 유의성: Fisher 정확 검정, OpenAI p — “이것은 이론적인 취약점이 아니다. 성공률이 90 %에 달하는 Lethal Trifecta는 현재 생산 AI 시스템에 대한 신뢰할 수 있는 공격 원시 요소이다.”

치명적인 삼중고란 무엇인가?

공격 체인은 하나의 실행 턴 내에 세 가지 조건이 모두 맞아야 합니다:

특권 데이터 접근 – 에이전트가 민감한 운영 또는 재무 데이터를 볼 수 있음.
신뢰할 수 없는 콘텐츠 주입 – 에이전트가 외부 입력(예: 공급업체 문서, 청구서, 고객 이메일, 규제 제출물)을 처리함.
외부 유출 경로 – 에이전트가 하위 작업을 수행할 권한을 가짐.

왜 중요한가

공급망 환경: AI 에이전트가 조달 워크플로를 조정하고, 공급업체 제출물을 읽으며, 재고 시스템을 교차 확인하고, 구매 주문을 트리거합니다.
금융 서비스: 에이전트가 고객 포트폴리오를 요약하고, 규제 문서를 처리하며, 거래를 분류합니다.

두 아키텍처 모두 설계상 세 가지 조건을 모두 제공하므로, 치명적인 삼중고는 이러한 산업에서 에이전트형 AI의 기본 구성입니다. 우리의 데이터에 따르면 주요 모델 제공업체 중 두 곳이 80 % 이상의 비율로 취약합니다.

Cerberus가 감지한 내용 — 그리고 격차가 있는 부분

Cerberus는 세 개의 탐지 레이어에서 작동합니다. 검증은 observe‑only 모드로 수행되었으며—에이전트는 정상적으로 동작했고, Cerberus는 개입 없이 관찰을 기록했습니다.

탐지 레이어 결과 (N = 525)

레이어	설명	탐지율
L1	데이터 소스 모니터링	100 % (97.9 % – 100 %)
L2	토큰 출처 추적	100 % (97.9 % – 100 %)
L3	외부 의도 탐지	13.7 % (OpenAI) / 1.1 % (Anthropic) / 65.7 % (Google)

전체 탐지율: 28.5 % (24.7 % – 32.6 %).
오탐률: 0.0 % (0.0 % – 11.4 %) — 30개의 클린 컨트롤 실행에서 오탐이 전혀 발생하지 않음.

카테고리별 탐지 (모든 제공업체 통합)

직접 주입: 37.8 % (28.5 % – 48.1 %)
인코딩/난독화: 37.5 % (27.2 % – 49.0 %)
다중 턴: 33.3 % (22.9 % – 45.6 %)
다국어: 33.3 % (22.9 % – 45.6 %)
고급 기법: 20.0 % (14.1 % – 27.5 %)
사회공학: 15.3 % (8.8 % – 25.3 %)

L3 탐지 격차는 알려진 제한 사항이며 현재 활발히 개발 중인 영역입니다. L1과 L2 커버리지는 프로덕션에 바로 적용 가능하지만, L3은 적대적 무기 경쟁이 진행되고 있는 부분입니다.

제로 성능 오버헤드

p50 지연: 세션당 52 µs
p99 지연: 세션당 0.23 ms
오버헤드: 일반적인 LLM 지연(~2 s)의 0.01 %

일반적인 LLM 응답 시간이 약 2초인 상황에서 Cerberus는 거의 무시할 수 있는 오버헤드만을 추가하여, 배포에 대한 성능 논쟁을 없애줍니다.

공급망 및 금융 서비스에 대한 시사점

귀하의 에이전트형 AI 배포가 GPT‑4o‑mini 또는 Gemini를 사용하고 외부 문서(벤더 제출물, 청구서, 고객 커뮤니케이션, 규정 준수 제출물)를 처리한다면, Lethal Trifecta는 80 % 이상의 성공률을 보입니다.

핵심 질문은 공격이 가능한지 여부가 아니라, 단일 실행 턴에서 세 가지 트리펙타 조건이 모두 활성화되었는지를 감지할 수 있는 런타임 레이어가 있는지 여부입니다. 오늘날 대부분의 배포는 이러한 가시성이 부족합니다.

Cerberus 시작하기

GitHub:
npm package: @cerberus-ai/core (서명된 출처)
Demo:
Company site:

Tags: #AgenticAI #SupplyChain #FinancialServices #CyberSecurity #RuntimeSecurity #PromptInjection #OpenSource #Cerberus #SixSense #LLMSecurity #RedTeam

우리는 Agentic AI를 525개의 실제 공격에 대해 테스트했습니다. 우리가 발견한 내용은 다음과 같습니다.

소개

공격 성공률

치명적인 삼중고란 무엇인가?

왜 중요한가

Cerberus가 감지한 내용 — 그리고 격차가 있는 부분

탐지 레이어 결과 (N = 525)

카테고리별 탐지 (모든 제공업체 통합)

제로 성능 오버헤드

공급망 및 금융 서비스에 대한 시사점

Cerberus 시작하기

관련 글

왜 오픈소스 AI 도구가 조용히 승리하고 있는가

트라비고

신뢰 부채: AI 생성 코드베이스에 숨겨진 프로덕션 위기

전체 Agentic 배포 파이프라인 실행: Scaffold에서 Live CloudFront까지

소개

공격 성공률

치명적인 삼중고란 무엇인가?

왜 중요한가

Cerberus가 감지한 내용 — 그리고 격차가 있는 부분

탐지 레이어 결과 (N = 525)

카테고리별 탐지 (모든 제공업체 통합)

제로 성능 오버헤드

공급망 및 금융 서비스에 대한 시사점

Cerberus 시작하기

관련 글

왜 오픈소스 AI 도구가 조용히 승리하고 있는가

트라비고

신뢰 부채: AI 생성 코드베이스에 숨겨진 프로덕션 위기

전체 Agentic 배포 파이프라인 실행: Scaffold에서 Live CloudFront까지

탐지 레이어 결과 (N = 525)