[Paper] 블랙-박스 LVLM 공격의 전선을 세밀한 디테일 타깃팅으로 확장
Source: arXiv - 2602.17645v1
개요
이 논문은 M‑Attack‑V2를 소개한다. 이는 기존 M‑Attack 프레임워크에 대한 간단하면서도 강력한 업그레이드 집합으로, 대형 비전‑언어 모델(LVLM)들에 대한 블랙‑박스 적대적 공격을 목표로 한다. 이전의 전이 기반 공격에서 발생하던 고분산 그래디언트를 해결함으로써, 저자들은 Claude‑4.0, Gemini‑2.5‑Pro, GPT‑5와 같은 최첨단 모델들에 대한 성공률을 크게 향상시켰으며, 공격 파이프라인은 완전히 블랙‑박스(그래디언트 접근 불가) 상태를 유지한다.
Key Contributions
-
Diagnoses gradient instability in the original M‑Attack, linking it to ViT translation sensitivity and asymmetric source‑target crop handling.
→ 원래 M‑Attack에서 발생하는 그래디언트 불안정을 진단하고, 이를 ViT의 변환 민감도와 비대칭적인 소스‑타깃 크롭 처리와 연결함. -
Multi‑Crop Alignment (MCA): averages gradients from several independently sampled source crops per iteration, dramatically reducing variance.
→ 다중 크롭 정렬 (MCA): 각 반복마다 독립적으로 샘플링된 여러 소스 크롭의 그래디언트를 평균화하여 변동성을 크게 감소시킴. -
Auxiliary Target Alignment (ATA): replaces aggressive target augmentations with a small, semantically‑aligned auxiliary target set, smoothing the target manifold.
→ 보조 타깃 정렬 (ATA): 공격적인 타깃 증강을 작고 의미적으로 정렬된 보조 타깃 집합으로 교체하여 타깃 매니폴드를 부드럽게 함. -
Patch Momentum: reinterprets momentum at the patch level, replaying historical crop gradients to reinforce consistent directions.
→ 패치 모멘텀: 모멘텀을 패치 수준에서 재해석하고, 과거 크롭 그래디언트를 재생하여 일관된 방향을 강화함. -
Patch‑Size Ensemble (PE+): refines the ensemble of patch sizes to capture richer transferable cues.
→ 패치 크기 앙상블 (PE+): 패치 크기 앙상블을 정교화하여 더 풍부한 전이 가능한 단서를 포착함. -
M‑Attack‑V2: a modular, drop‑in improvement over M‑Attack that pushes black‑box LVLM attack success from single‑digit percentages to near‑perfect rates on several state‑of‑the‑art models.
→ M‑Attack‑V2: M‑Attack에 대한 모듈식 드롭‑인 개선으로, 블랙박스 LVLM 공격 성공률을 한 자리 수 퍼센트에서 여러 최신 모델에 대해 거의 완벽에 가까운 비율로 끌어올림. -
Open‑source release of code, data, and pretrained attack configurations.
→ 코드, 데이터, 사전 학습된 공격 구성의 오픈소스 공개.
Methodology
- Problem Setup – 블랙박스 환경에서 공격자는 이미지‑텍스트 쌍으로 LVLM에 질의하고 모델의 출력을 관찰할 수만 있다. 목표는 LVLM이 목표(잘못된) 응답을 생성하도록 강제하는 교란된 이미지를 만드는 것이다.
- Original M‑Attack Recap – 지역 크롭‑레벨 매칭을 사용한다: 원본 이미지의 무작위 크롭을 목표 이미지의 크롭과 정렬하고, 대리 모델에서 전이된 그래디언트를 추정한다.
- Why It Fails –
- ViT translation sensitivity가 “스파이크‑같은” 그래디언트를 만들어 작은 크롭 이동에도 급격히 변한다.
- 비대칭적인 원본/목표 크롭은 반복마다 거의 직교에 가까운 그래디언트 방향을 생성해 업데이트가 잡음이 많아진다.
- Multi‑Crop Alignment (MCA) – 각 반복마다 원본 이미지에서 N개의 독립적인 크롭을 샘플링하고, 그들의 대리 그래디언트를 계산한 뒤 평균한다. 원본 변환에 대한 기대값을 취함으로써 방향을 안정화한다.
- Auxiliary Target Alignment (ATA) – 목표 이미지를 과도하게 증강(목표 매니폴드 확대)하는 대신, 의미적으로 연관된 분포(예: 동일 클래스 또는 캡션)에서 작은 집합의 보조 목표 이미지를 뽑는다. 공격은 원본 크롭을 이 더 부드러운 목표 집합에 맞추어, 목표 측면의 분산을 감소시킨다.
- Patch Momentum – 기존 모멘텀은 전체 이미지 그래디언트를 누적한다. Patch Momentum은 ViT 패치별로 모멘텀을 저장해 옵티마이저가 과거에 일관된 패치‑레벨 방향을 “재생”하도록 한다.
- Patch‑Size Ensemble (PE+) – 여러 패치 크기(예: 16×16, 32×32)로 공격을 동시에 실행하고, 얻어진 그래디언트를 집계한다. 이를 통해 미세한 단서와 거친 단서를 모두 포착한다.
- Putting It All Together – 이 모듈들은 서로 직교하며 독립적으로 켤 수 있다. 실제로 저자들은 MCA + ATA + Patch Momentum + PE+를 하나의 파이프라인(M‑Attack‑V2)으로 사용한다.
결과 및 발견
| Target LVLM | Baseline M‑Attack Success | M‑Attack‑V2 Success |
|---|---|---|
| Claude‑4.0 | 8 % | 30 % |
| Gemini‑2.5‑Pro | 83 % | 97 % |
| GPT‑5 | 98 % | 100 % |
- Gradient variance는 MCA를 적용했을 때 반복 간 gradient 차이의 노름으로 측정된 바와 같이 약 70 % 감소합니다.
- ATA는 연속적인 목표 gradient 사이의 평균 코사인 거리를 0.45에서 0.12로 줄여, 더 부드러운 목표 지형을 나타냅니다.
- Patch Momentum은 특히 큰 ViT 백본에서 MCA + ATA 위에 전이 가능성을 5–10 % 향상시킵니다.
- **PE+**는 추가로 2–3 % 개선을 제공하며, 다중 스케일 패치 정보가 보완적임을 확인합니다.
전체적으로, 이 공격은 블랙‑박스 (쿼리 접근만) 상태를 유지하면서 테스트된 LVLM들에 대해 화이트‑박스 방법에 필적하는 전이 성공률을 달성합니다.
실용적 함의
- Security Auditing for Multimodal Products – LVLM(예: 시각 어시스턴트, 콘텐츠 모더레이션 도구)을 배포하는 기업은 이제 가벼운 쿼리 전용 공격 스위트를 사용해 견고성을 평가할 수 있습니다.
- Defensive Research – 식별된 실패 모드(번역에 민감한 ViT 그래디언트, 비대칭 크롭 처리)는 그래디언트 마스킹, 무작위 패치 셔플링, 혹은 견고한 데이터 증강과 같은 방어 전략을 위한 구체적인 목표를 제공합니다.
- Adversarial Training Pipelines – MCA와 ATA를 데이터 중심 증강 전략으로 재활용할 수 있습니다: 다중 크롭, 의미적으로 정렬된 쌍으로 학습하면 미세 교란에 대한 모델 불변성을 향상시킬 수 있습니다.
- Benchmarking Transferability – M‑Attack‑V2는 향후 블랙박스 LVLM 공격 연구를 위한 강력한 베이스라인을 제공하여 논문 간 비교를 보다 공정하게 만듭니다.
- Tooling for Red‑Teamers – 오픈소스 구현을 기존 레드팀 프레임워크(예: AutoAttack, Foolbox)에 통합하면 그래디언트 접근 없이도 멀티모달 모델에 대한 커버리지를 확장할 수 있습니다.
제한 사항 및 향후 연구
- 쿼리 예산 – 공격이 블랙‑박스임에도 불구하고 GPT‑5에서 거의 완벽한 성공을 달성하려면 여전히 수천 번의 쿼리가 필요하며, 이는 속도 제한이 있는 API에 대해 실용적이지 않을 수 있습니다.
- 대리 모델 의존성 – 전이 가능성은 대리 LVLM의 품질에 달려 있으며, 구조가 크게 다른 모델에 대해서는 공격 성능이 저하될 수 있습니다.
- 의미 보조 집합 구성 – ATA는 작고 의미적으로 관련된 이미지 풀에 대한 접근을 전제로 하는데, 임의의 대상에 대해 이러한 집합을 자동으로 생성하는 것은 아직 해결되지 않은 과제입니다.
- 방어 평가 – 논문은 공격 성능에 초점을 맞추고 있으며, 기존 방어(예: 입력 무작위화, 탐지 메커니즘)에 대한 체계적인 테스트는 향후 연구로 남겨두었습니다.
- 비전‑언어를 넘어 확장 – 동일한 그래디언트‑노이즈 제거 아이디어를 순수 언어 모델이나 오디오‑텍스트 멀티모달 모델에 적용하는 것은 유망한 방향입니다.
전반적으로 M‑Attack‑V2는 오늘날 가장 강력한 LVLM의 숨겨진 취약점을 조명하고, 실무자들에게 이러한 시스템을 탐색하고 궁극적으로 강화할 수 있는 실용적인 도구를 제공합니다.
저자
- Xiaohan Zhao
- Zhaoyi Li
- Yaxin Luo
- Jiacheng Cui
- Zhiqiang Shen
논문 정보
- arXiv ID: 2602.17645v1
- 카테고리: cs.LG, cs.AI, cs.CL, cs.CV
- 발행일: 2026년 2월 19일
- PDF: Download PDF