[Paper] Contextual Image Attack: 시각적 컨텍스트가 멀티모달 안전 취약점을 노출하는 방법
Source: arXiv - 2512.02973v1
개요
이 논문은 Contextual Image Attack (CIA) 라는 새로운 방식의 멀티모달 대형 언어 모델(MLLM) 탈옥 기법을 소개한다. 악의적인 명령을 이미지의 시각적 내용에 직접 삽입함으로써, 사진 자체를 “프롬프트”로 취급한다. 저자들은 GPT‑4o와 Qwen2.5‑VL 같은 최신 모델조차도 독성·안전하지 않은 출력을 생성하도록 유도할 수 있음을 보여주며, AI 기반 비전‑언어 시스템을 구축하는 개발자들이 아직 충분히 탐구하지 않은 공격 표면을 강조한다.
주요 기여
- 이미지 중심 탈옥 프레임워크: 텍스트‑이미지 상호작용에서 벗어나 이미지를 해로운 의도의 주요 전달 매체로 활용한다.
- 멀티‑에이전트 생성 파이프라인: 객체 삽입, 장면 조작, 스타일 변환, 컨텍스트 오버레이 네 가지 시각화 전략을 자동으로 적용해, 악의적인 질의를 숨긴 정상적인 이미지를 만든다.
- 컨텍스트 요소 강화: 시각적 타당성을 해치지 않으면서 숨겨진 명령의 현저성을 높인다.
- 자동 독성 난독화: 동의어 치환 및 언어적 마스킹을 적용해 기존 안전 필터를 회피한다.
- 실증적 우수성: MMSafetyBench‑tiny 벤치마크에서 CIA는 독성 점수 4.73(GPT‑4o) 및 4.83(Qwen2.5‑VL‑72B)와 공격 성공률 86.31 %, **91.07 %**를 기록해 기존 텍스트 중심 공격을 크게 앞선다.
방법론
- 프롬프트 생성: “플래너” 에이전트가 목표 악성 질의를 받아 네 가지 시각화 전술 중 하나를 선택한다.
- 이미지 합성:
- 객체 삽입: 질의를 텍스처에 인코딩한 작은, 상황에 맞는 객체(예: 표지판이나 라벨)를 배치한다.
- 장면 조작: 배경 요소(예: 광고판 텍스트)를 변경해 명령을 삽입한다.
- 스타일 변환: 인코딩된 토큰에 대응하는 미묘한 색상·패턴 변화를 적용한다.
- 컨텍스트 오버레이: 한눈에 보기 어려운 반투명 레이어(예: AR 스티커)를 추가한다.
- 컨텍스트 강화: 조명, 그림자, 원근을 조정해 숨겨진 요소가 자연스럽게 어우러지게 하여 모델이 이를 주목할 가능성을 높인다.
- 독성 난독화: 숨겨진 텍스트를 동의어 수준의 패러프레이저에 통과시키고 무해한 채우기 단어를 삽입해 안전 분류기가 탐지하기 어렵게 만든다.
- 평가: 생성된 이미지를 중립적인 캡션과 함께 대상 MLLM에 입력하고, 모델의 응답을 독성 및 악성 명령 실행 여부에 따라 점수화한다.
결과 및 발견
| 모델 | 독성 점수 (5점 만점) | 공격 성공률 |
|---|---|---|
| GPT‑4o | 4.73 | 86.31 % |
| Qwen2.5‑VL‑72B | 4.83 | 91.07 % |
- CIA는 기존 텍스트 전용 탈옥(보통 60‑70 % ASR)보다 일관되게 우수한 성능을 보인다.
- 시각적 컨텍스트가 모델의 숨겨진 프롬프트에 대한 주의를 크게 증가시키며, 특히 삽입된 요소가 전체 장면 의미와 일치할 때 효과가 두드러진다.
- 난독화 모듈은 기존 안전 필터에 의해 탐지되는 비율을 ≈30 % 감소시킨다.
실용적 함의
- 비전‑언어 제품 보안 테스트: 개발자는 이미지를 보조 데이터가 아닌 일차적인 공격 벡터로 간주해야 한다.
- 강화된 모더레이션 파이프라인: 콘텐츠 필터는 순수 픽셀 데이터뿐 아니라 시각적 의미(예: OCR, 장면 이해)도 분석해야 한다.
- 안전 프롬프트 라이브러리: 안전한 어시스턴트를 구축할 때 텍스트와 시각 입력 모두를 정제하고, 의심스러운 삽입 텍스트나 패턴을 표시하는 “시각 안전망”을 적용하는 것을 고려한다.
- 모델 학습 조정: CIA와 같은 적대적 시각 예시를 파인튜닝 데이터에 포함하면 컨텍스트 기반 탈옥에 대한 저항력을 높일 수 있다.
- 규제·정책: 의료·금융 등 규제 분야에 MLLM을 배포하는 기업은 이미지에 내재된 악성 명령까지 포함한 위험 평가를 확대해야 한다.
제한점 및 향후 연구
- 데이터셋 범위: 실험은 MMSafetyBench‑tiny 벤치마크에 한정돼 있어, 더 크고 다양화된 코퍼스에서는 추가적인 실패 모드가 드러날 수 있다.
- 전이 가능성: 두 모델에만 평가했으며, 토크나이저가 다른 오픈소스 비전‑언어 모델에 대한 효과는 아직 정량화되지 않았다.
- 탐지와 방어의 군비 경쟁: 저자들이 제시한 기본 난독화 외에도, 시각·텍스트 신호를 공동으로 분석하는 적응형 방어 기법이 필요하다.
- 사용자 경험 영향: 일부 생성 이미지는 인간 리뷰어에게 약간 어색하게 보일 수 있다; 공격 효능을 유지하면서 시각적 사실성을 높이는 것이 향후 과제이다.
핵심 요약: Contextual Image Attack 논문은 “보는 것이 믿는다”는 전제가 멀티모달 AI에서는 더 이상 안전하지 않다는 점을 일깨운다. MLLM을 개발·배포하는 사람들은 위협 모델에 시각 채널을 포함하고, 컨텍스트를 꿰뚫어 볼 수 있는 방어 체계를 구축해야 한다.
저자
- Yuan Xiong
- Ziqi Miao
- Lijun Li
- Chen Qian
- Jie Li
- Jing Shao
논문 정보
- arXiv ID: 2512.02973v1
- 분류: cs.CV, cs.CL, cs.CR
- 발표일: 2025년 12월 2일
- PDF: Download PDF