[Paper] Open Foundation Models에서 Vision의 적대적 견고성
Source: arXiv - 2512.17902v1
Overview
논문 Adversarial Robustness of Vision in Open Foundation Models 은 두 가지 인기 있는 오픈‑웨이트 비전‑언어 모델인 LLaVA‑1.5‑13B와 Meta의 Llama 3.2 Vision‑8B‑2가 시각 입력이 고의로 손상될 때 어떻게 동작하는지를 조사합니다. VQA‑v2 벤치마크의 이미지에 대해 비목표 투사 경사 하강법(PGD) 공격을 수행함으로써, 저자들은 모델의 정답 정확도가 얼마나 감소하는지를 정량화하고, 표준 성능 점수만으로는 드러나지 않는 놀라운 견고성 차이를 밝혀냅니다.
주요 기여
- **오픈‑웨이트 비전‑언어 모델(VLMs)**에 대한 최초의 체계적인 적대적 평가를 대규모 VQA 벤치마크에서 수행.
- 실증적 비교: 두 최첨단 VLM(LLaVA‑1.5‑13B vs. Llama 3.2 Vision‑8B‑2)을 점진적으로 증가하는 PGD 교란 강도 하에서 수행.
- 발견: 높은 기본 정확도가 더 강한 적대적 견고성을 보장하지 않음—Llama 3.2 Vision은 클린 점수가 낮음에도 불구하고 공격 시 더 완만하게 성능이 저하됨.
- 정량적 분석: 견고성을 아키텍처 및 학습 선택과 연결, 모델 크기, 멀티모달 융합 전략, 사전 학습 데이터가 취약성에 영향을 미침을 시사.
- 오픈소스 공개: 공격 스크립트와 교란된 VQA 서브셋을 제공하여 커뮤니티가 향후 VLM을 시각적 적대자에 대해 벤치마크할 수 있도록 함.
방법론
- 테스트된 모델 – LLaVA‑1.5‑13B (CLIP 백본 + LLM 융합)와 Meta의 Llama 3.2 Vision‑8B‑2 (초기 시각 토큰 통합을 갖는 통합 트랜스포머).
- 데이터셋 – VQA‑v2 데이터셋의 선별된 하위 집합(≈10 k 이미지‑질문 쌍)으로, 객체, 속성, 카운팅 질문의 균형 잡힌 혼합을 포함합니다.
- 공격 절차 – 비목표 PGD가 각 이미지의 원시 픽셀 값에 직접 적용됩니다. 공격은 40번의 반복으로 수행되며, 단계 크기는 ℓ∞ 교란 예산 2/255, 4/255, 8/255, 16/255를 달성하도록 조정됩니다. 언어 구성 요소의 그래디언트 정보는 사용되지 않으며, 시각 인코더의 손실만 역전파됩니다.
- 평가 지표 – 표준 VQA 정확도(다수결 투표 후 인간이 제공한 정답과 일치하는 답변 비율). 정확도는 원본 이미지와 각 교란 수준에 대해 보고됩니다.
- 분석 – 저자들은 정확도 감소 (clean – adversarial)를 계산하고 견고성 곡선을 그린 뒤, 이를 모델 아키텍처 세부 사항(예: 시각 인코더 깊이, 토큰 수준 융합)과 상관관계시킵니다.
Results & Findings
| 섭동 (ℓ∞) | LLaVA‑1.5‑13B 클린 정확도 | LLaVA‑1.5‑13B 정확도 | Llama 3.2 Vision‑8B‑2 클린 정확도 | Llama 3.2 Vision 정확도 |
|---|---|---|---|---|
| 0 (clean) | 71.2 % | — | 64.8 % | — |
| 2/255 | 71.2 % | 58.9 % (‑12.3) | 64.8 % | 55.6 % (‑9.2) |
| 4/255 | 71.2 % | 45.3 % (‑25.9) | 64.8 % | 48.9 % (‑15.9) |
| 8/255 | 71.2 % | 28.7 % (‑42.5) | 64.8 % | 36.2 % (‑28.6) |
| 16/255 | 71.2 % | 12.4 % (‑58.8) | 64.8 % | 21.5 % (‑43.3) |
주요 시사점
- 두 모델 모두 섭동 강도가 증가함에 따라 정확도가 급격히 감소하며, 시각 채널이 유효한 공격 표면임을 확인한다.
- Llama 3.2 Vision은 모든 섭동 수준에서 LLaVA보다 일관되게 정확도 손실이 적다, 비록 초기 클린 기준이 낮지만.
- 상대적 견고성 격차가 ε가 높아질수록 확대되어, Llama 3.2의 초기 시각‑토큰 통합이 픽셀 수준 노이즈에 대한 암묵적 정규화를 제공할 수 있음을 시사한다.
- 클린 성능과 견고성 사이에 단순한 선형 관계는 없으며, 아키텍처 선택(예: 시각 인코더 깊이, 토큰‑융합 시점)이 더 큰 영향을 미치는 것으로 보인다.
실용적 시사점
- Security‑by‑Design for Multimodal Apps – VLM에 의존하는 챗봇, 이미지 검색, 보조 도구를 개발하는 개발자는 시각 프론트엔드를 잠재적 공격 벡터로 간주해야 합니다. JPEG 압축, 노이즈 제거와 같은 간단한 이미지 전처리가 저예산 PGD 공격을 완화할 수 있습니다.
- Model Selection – 견고성이 원시 VQA 정확도보다 더 중요할 때(예: 안전‑중요 검사나 의료 영상), Llama 3.2 Vision이 낮은 클린 점수에도 불구하고 더 나은 기본값이 될 수 있습니다.
- Adversarial Testing Pipelines – 공개된 PGD 스크립트를 CI 파이프라인에 통합하여 새로운 모델 버전이 미세조정되거나 양자화될 때 시각적 견고성의 회귀를 자동으로 표시할 수 있습니다.
- Guidance for Fine‑Tuning – 연구 결과는 노이즈가 있거나 증강된 시각 데이터에 대해 미세조정하면 정확도를 크게 희생하지 않으면서 견고성을 향상시킬 수 있음을 시사합니다. 이는 이미 VLM을 운영 중인 팀에게 실용적인 방안입니다.
- Regulatory & Compliance – AI 설명 가능성과 신뢰성이 요구되는 산업(예: 자율 주행)에서는 시각적 적대자에 대한 저항성을 입증하는 것이 규정 준수 체크리스트의 일부가 됩니다.
제한 사항 및 향후 연구
- 비목표 PGD만 – 이 연구는 비목표 공격에 초점을 맞추고 있으며; 목표 공격이나 지각적으로 제한된 공격(예: 패치 기반, 스타일 전이)은 다르게 동작할 수 있습니다.
- 단일 데이터셋 – 결과는 VQA‑v2 하위 집합에 대해 보고되었으며; 다른 비전‑언어 작업(이미지 캡션, 시각적 그라운딩)은 서로 다른 견고성 패턴을 보일 수 있습니다.
- 방어 평가 없음 – 논문에서는 일반적인 방어 방법(적대적 학습, 입력 전처리)을 테스트하지 않아, 얼마나 견고성을 회복할 수 있는지에 대한 질문이 남아 있습니다.
- 아키텍처 귀인 – 저자들은 초기 토큰 융합이 도움이 된다고 가설을 세우지만, 원인 요인을 정확히 파악하기 위해서는 융합 깊이와 인코더 크기를 변화시키는 보다 깊은 절제 실험이 필요합니다.
- 확장성 – 실험은 13 B 및 8 B 모델에만 제한되었으며, 더 큰 기반 모델(예: 70 B)이 동일한 추세를 보이는지는 아직 명확하지 않습니다.
향후 연구 방향에는 목표 공격, 작업 간 견고성 연구, 체계적인 방어 벤치마킹, 그리고 차세대 견고한 비전‑언어 기반을 안내하기 위한 보다 깊은 아키텍처 절제 실험이 포함될 수 있습니다.
저자
- Jonathon Fox
- William J Buchanan
- Pavlos Papadopoulos
논문 정보
- arXiv ID: 2512.17902v1
- 카테고리: cs.CV, cs.AI, cs.CR
- 발행일: 2025년 12월 19일
- PDF: Download PDF