우리는 Agentic AI를 525개의 실제 공격에 대해 테스트했습니다. 우리가 발견한 내용은 다음과 같습니다.
Source: Dev.to
(번역을 진행하려면 번역하고자 하는 전체 텍스트를 제공해 주세요.)
소개
우리는 수치를 분석했습니다. 위협은 실제입니다.
지난 몇 달 동안 우리는 Cerberus를 구축하고 검증해 왔습니다 — 에이전트형 AI 시스템을 위한 오픈소스 런타임 보안 하니스입니다. 이는 우리가 Lethal Trifecta라고 부르는 특정 위협 모델을 중심으로 설계되었습니다: 단일 AI 실행 턴 내에서 특권 데이터 접근, 신뢰할 수 없는 콘텐츠 주입, 그리고 외부 유출 경로가 동시에 수렴하는 상황.
우리는 이제 막 첫 번째 공식 검증을 마쳤습니다: 세 주요 AI 제공업체를 대상으로 525개의 공격 시도. 아래는 주요 결과입니다.
공격 성공률
전체 주입 준수 – 에이전트가 공격자의 주소로 완전히 리디렉션됨
| 모델 | 성공률 | 95 % CI | 인과 점수 |
|---|---|---|---|
| GPT‑4o‑mini | 90.3 % | 84.8 % – 93.9 % | 0.811 |
| Gemini 2.5 Flash | 82.4 % | 75.9 % – 87.5 % | 0.702 |
| Claude Sonnet | 6.7 % | 3.8 % – 11.5 % | 0.207 |
- 대조군: 모든 제공업체에서 30건 중 0건의 데이터 유출 (청정 기준).
- 통계적 유의성: Fisher 정확 검정, OpenAI p — “이것은 이론적인 취약점이 아니다. 성공률이 90 %에 달하는 Lethal Trifecta는 현재 생산 AI 시스템에 대한 신뢰할 수 있는 공격 원시 요소이다.”
치명적인 삼중고란 무엇인가?
공격 체인은 하나의 실행 턴 내에 세 가지 조건이 모두 맞아야 합니다:
- 특권 데이터 접근 – 에이전트가 민감한 운영 또는 재무 데이터를 볼 수 있음.
- 신뢰할 수 없는 콘텐츠 주입 – 에이전트가 외부 입력(예: 공급업체 문서, 청구서, 고객 이메일, 규제 제출물)을 처리함.
- 외부 유출 경로 – 에이전트가 하위 작업을 수행할 권한을 가짐.
왜 중요한가
- 공급망 환경: AI 에이전트가 조달 워크플로를 조정하고, 공급업체 제출물을 읽으며, 재고 시스템을 교차 확인하고, 구매 주문을 트리거합니다.
- 금융 서비스: 에이전트가 고객 포트폴리오를 요약하고, 규제 문서를 처리하며, 거래를 분류합니다.
두 아키텍처 모두 설계상 세 가지 조건을 모두 제공하므로, 치명적인 삼중고는 이러한 산업에서 에이전트형 AI의 기본 구성입니다. 우리의 데이터에 따르면 주요 모델 제공업체 중 두 곳이 80 % 이상의 비율로 취약합니다.
Cerberus가 감지한 내용 — 그리고 격차가 있는 부분
Cerberus는 세 개의 탐지 레이어에서 작동합니다. 검증은 observe‑only 모드로 수행되었으며—에이전트는 정상적으로 동작했고, Cerberus는 개입 없이 관찰을 기록했습니다.
탐지 레이어 결과 (N = 525)
| 레이어 | 설명 | 탐지율 |
|---|---|---|
| L1 | 데이터 소스 모니터링 | 100 % (97.9 % – 100 %) |
| L2 | 토큰 출처 추적 | 100 % (97.9 % – 100 %) |
| L3 | 외부 의도 탐지 | 13.7 % (OpenAI) / 1.1 % (Anthropic) / 65.7 % (Google) |
- 전체 탐지율: 28.5 % (24.7 % – 32.6 %).
- 오탐률: 0.0 % (0.0 % – 11.4 %) — 30개의 클린 컨트롤 실행에서 오탐이 전혀 발생하지 않음.
카테고리별 탐지 (모든 제공업체 통합)
- 직접 주입: 37.8 % (28.5 % – 48.1 %)
- 인코딩/난독화: 37.5 % (27.2 % – 49.0 %)
- 다중 턴: 33.3 % (22.9 % – 45.6 %)
- 다국어: 33.3 % (22.9 % – 45.6 %)
- 고급 기법: 20.0 % (14.1 % – 27.5 %)
- 사회공학: 15.3 % (8.8 % – 25.3 %)
L3 탐지 격차는 알려진 제한 사항이며 현재 활발히 개발 중인 영역입니다. L1과 L2 커버리지는 프로덕션에 바로 적용 가능하지만, L3은 적대적 무기 경쟁이 진행되고 있는 부분입니다.
제로 성능 오버헤드
- p50 지연: 세션당 52 µs
- p99 지연: 세션당 0.23 ms
- 오버헤드: 일반적인 LLM 지연(~2 s)의 0.01 %
일반적인 LLM 응답 시간이 약 2초인 상황에서 Cerberus는 거의 무시할 수 있는 오버헤드만을 추가하여, 배포에 대한 성능 논쟁을 없애줍니다.
공급망 및 금융 서비스에 대한 시사점
귀하의 에이전트형 AI 배포가 GPT‑4o‑mini 또는 Gemini를 사용하고 외부 문서(벤더 제출물, 청구서, 고객 커뮤니케이션, 규정 준수 제출물)를 처리한다면, Lethal Trifecta는 80 % 이상의 성공률을 보입니다.
핵심 질문은 공격이 가능한지 여부가 아니라, 단일 실행 턴에서 세 가지 트리펙타 조건이 모두 활성화되었는지를 감지할 수 있는 런타임 레이어가 있는지 여부입니다. 오늘날 대부분의 배포는 이러한 가시성이 부족합니다.
Cerberus 시작하기
- GitHub:
- npm package:
@cerberus-ai/core(서명된 출처) - Demo:
- Company site:
Tags: #AgenticAI #SupplyChain #FinancialServices #CyberSecurity #RuntimeSecurity #PromptInjection #OpenSource #Cerberus #SixSense #LLMSecurity #RedTeam