도메인 위장 주입 공격, 다중 에이전트 LLM 시스템에서 탐지 회피

발행: (2026년 5월 23일 AM 03:46 GMT+9)
4 분 소요

출처: Hacker News

PDF 보기
HTML (실험적)

초록:
LLM 에이전트를 보호하기 위해 배치된 인젝션 탐지기는 오버라이드 지시문으로 스스로를 선언하는 정적 템플릿 기반 페이로드에 맞춰 보정됩니다. 우리는 체계적인 사각지대를 확인했습니다. 페이로드가 대상 문서의 도메인 어휘와 권위 구조를 모방하도록 생성될 때, 즉 도메인 위장 인젝션이라고 부르는 경우, 표준 탐지기는 이를 표시하지 못하며 Llama 3.1 8B에서는 탐지율이 93.8 %에서 9.7 %로, Gemini 2.0 Flash에서는 100 %에서 55.6 %로 급락합니다. 이를 **위장 탐지 격차(Camouflage Detection Gap, CDG)**라 정의했으며, 이는 정적 페이로드와 위장 페이로드 사이의 인젝션 탐지율 차이를 의미합니다. 세 도메인과 두 모델 패밀리를 아우르는 45개 과제에 걸쳐 CDG는 크고 통계적으로 유의미했습니다(chi² = 38.03, p < 0.001 for Llama; chi² = 17.05, p < 0.001 for Gemini), 양쪽 모두 역방향 불일치 쌍은 0이었습니다. 또한 실제 서비스 안전 분류기인 Llama Guard 3을 평가했으며, 위장 페이로드를 전혀 탐지하지 못했습니다(IDRcamouflage = 0.000). 이는 사각지대가 few‑shot 탐지기를 넘어 전용 안전 분류기까지 확장됨을 확인시켜 줍니다. 우리는 다중 에이전트 토론 구조가 작은 모델에서는 정적 인젝션 공격을 최대 9.9배까지 증폭시키는 반면, 더 강력한 모델은 집단적 저항을 보인다는 점도 보여줍니다. 목표 탐지기 보강은 부분적인 완화만 제공했습니다(Llama에서 10.2 % 향상, Gemini에서 78.7 % 향상), 이는 취약점이 약한 모델의 우연한 결함이 아니라 구조적인 문제임을 시사합니다. 우리의 프레임워크, 과제 뱅크, 페이로드 생성기는 공개적으로 제공됩니다.

코멘트:
8 페이지, 3 그림, 2 표. EMNLP 2026 ARR 사이클에 제출됨

주제:

  • 암호학 및 보안 (cs.CR)
  • 인공지능 (cs.AI)
  • 계산 및 언어 (cs.CL)

ACM 분류:
I.2.7

인용:
arXiv:2605.22001 [cs.CR]

(또는 arXiv:2605.22001v1 [cs.CR] – 이 버전)

https://doi.org/10.48550/arXiv.2605.22001
arXiv‑발행 DOI via DataCite (등록 대기 중)

제출 이력

From: Aaditya Pai [이메일 보기]
[v1]
2026년 5월 21일 목요일 04:58:11 UTC (27 KB)

0 조회
Back to Blog

관련 글

더 보기 »