[Paper] Visually Prompted 벤치마크는 놀라울 정도로 취약하다
Source: arXiv - 2512.17875v1
개요
이 논문은 오늘날의 시각‑언어 모델(VLM)에서 놀라운 약점을 밝혀냅니다. 벤치마크가 시각 프롬프트—모델에게 어디를 바라볼지 알려주는 작은 표시(예: 색상 박스)—에 의존할 때, 그 표시의 색상, 크기, 심지어 JPEG 압축과 같은 사소하고 겉보기에 무관한 변화가 모델 순위를 크게 뒤바꿀 수 있습니다. 저자들은 표시 색상, 크기, JPEG 압축을 체계적으로 조정함으로써 벤치마크 결과를 조작할 수 있음을 보여주며, 현재 많은 VLM 리더보드의 신뢰성에 의문을 제기합니다.
주요 기여
- 9개의 인기 있는 오픈‑ 및 클로즈드‑소스 VLM에 대한 두 가지 비주얼‑프롬프팅 작업에서의 실증적 취약성 분석.
- “벤치마크 해킹” 시연: 색상·크기와 같은 간단한 시각 마커 조정으로 약한 모델(예: InternVL‑3‑8B)을 훨씬 큰 독점 시스템보다 우위에 올릴 수 있음.
- 저수준 추론 요인 식별(JPEG 압축, API 이미지 전처리)으로 시각 프롬프팅 벤치마크에 불균형하게 영향을 줌.
- VPBench 제작, 16가지 마커 변형을 포함한 선별된 대규모 벤치마크와 불안정성을 줄이기 위한 분석 도구 제공.
- 데이터셋 및 평가 스크립트 오픈‑소스 공개(https://lisadunlap.github.io/vpbench/), 재현 가능하고 보다 견고한 VLM 테스트 가능.
Methodology
- Benchmark selection – 저자들은 각 질문이 이미지에 배치된 색상 마커와 짝을 이루는 기존 시각‑프롬프트 데이터셋(예: BLINK)을 재사용했습니다.
- Model suite – 오픈‑소스(InternVL‑3‑8B, LLaVA 등)와 클로즈드‑소스 상용 API(Gemini 2.5 Pro, GPT‑4V 등)를 아우르는 9개의 VLM을 평가했습니다.
- Prompt perturbations – 각 이미지에 대해 시각 마커를 여러 차원에서 체계적으로 변경했습니다:
- Color (red → blue, green 등)
- Size (tiny → slightly larger)
- Opacity / border style
- Compression (different JPEG quality levels)
- Evaluation pipeline – 동일한 텍스트 질문을 변형된 이미지와 함께 각 모델에 전달했으며, 답변은 원본 정답 라벨을 사용해 점수를 매겼습니다.
- Statistical analysis – 각 변형에 대한 순위, 평균 정확도, 분산을 계산하여 민감도를 정량화했습니다.
- Benchmark redesign – 관찰된 민감도를 기반으로 저자들은 모든 마커 변형을 하나의 더 큰 벤치마크(VPBench)로 통합하고, robust 점수(예: 변형별 평균)를 계산하는 스크립트를 제공했습니다.
결과 및 발견
| 항목 | 관찰 |
|---|---|
| 마커 색상 | 빨간색에서 파란색으로 전환했을 때 일부 모델에서는 정확도가 30 % 감소했으며, 다른 모델은 개선되어 순위표가 재배열되었습니다. |
| 마커 크기 | 마커를 약 10 px 정도 약간 확대하면 오픈소스 InternVL‑3‑8B가 원래 벤치마크에서 Gemini 2.5 Pro와 동등해졌습니다. |
| JPEG 압축 | 품질을 100에서 70으로 조정한 압축은 시각적 내용이 의미적으로 동일함에도 불구하고 9개 모델 중 5개의 순위를 바꾸었습니다. |
| 전체 변동성 | 모든 교란에 걸쳐 모델 점수의 표준편차가 기존 (프롬프트가 없는) VLM 벤치마크보다 2–3배 높았습니다. |
| VPBench 영향 | 16가지 변형을 통합한 VPBench에서 평가했을 때 변동성이 ≈45 % 감소했으며, 교란 전반에 걸쳐 순위가 더 안정되었습니다. |
핵심 요점은 시각적 프롬프트가 모델이 붙잡는 숨겨진 “시각적 사전”을 도입해 실제 추론 과제와 무관한 저수준 시각적 단서에 취약하게 만든다는 것입니다.
실용적 시사점
- Benchmark design: VLM 평가 스위트를 구축하는 팀은 단일 변형 시각 프롬프트를 피하고, 대신 마커 속성을 무작위화하거나 여러 변형을 사용해야 합니다 (VPBench와 같이).
- Model debugging: 개발자는 제공된 분석 도구를 사용해 모델이 이미지 내용을 진정으로 이해하기보다 마커 색상/크기에 과적합했는지 진단할 수 있습니다.
- API usage: 상업용 VLM API를 호출할 때 이미지 전처리(예: 자동 JPEG 압축)가 결과에 의도치 않게 편향을 줄 수 있음을 인지하고, 무손실 포맷을 전송하거나 압축 수준을 제어하는 것을 고려하세요.
- Product reliability: 시각 QA(예: 문서 분석, 의료 영상 보조)에 VLM을 활용하는 애플리케이션은 사소한 시각적 아티팩트에 대한 견고함을 가정해서는 안 되며, 다양한 프롬프트를 통한 철저한 테스트가 필수입니다.
- Fair competition: VLM을 순위 매기는 리더보드는 시각 프롬프트 사양을 공개하고, 가능하면 견고성 점수 (여러 마커 스타일에 대한 평균 성능)를 보고해야 합니다.
제한 사항 및 향후 연구
- 작업 범위: 이 연구는 두 가지 시각‑프롬프팅 작업에 초점을 맞추었으며, 보다 넓은 작업군(예: 비디오 QA, 멀티모달 추론)에서는 다른 민감도가 나타날 수 있습니다.
- 모델 다양성: 아홉 개 모델을 테스트했지만, 급속히 확장되는 VLM 생태계로 인해 최신 아키텍처는 다르게 동작할 가능성이 있습니다.
- 인간 인지 기준: 논문에서는 동일한 변형 프롬프트에 대한 인간 성능과 모델 취약성을 비교하지 않아, 관찰된 효과가 기계에만 특유한 것인지 여부가 남아 있습니다.
- 완화 전략: VPBench는 변동성을 감소시키지만 완전히 제거하지는 못합니다; 향후 연구에서는 훈련 시 정규화(예: 마커‑비의존 데이터 증강) 등을 탐색해 모델 자체를 보다 견고하게 만들 수 있습니다.
이러한 공백을 강조함으로써, 저자들은 커뮤니티가 보다 안정적인 평가 방식을 개발하고, 표면적인 시각적 단서 너머를 실제로 “볼” 수 있는 VLM을 설계하도록 독려합니다.
저자
- Haiwen Feng
- Long Lian
- Lisa Dunlap
- Jiahao Shu
- XuDong Wang
- Renhao Wang
- Trevor Darrell
- Alane Suhr
- Angjoo Kanazawa
논문 정보
- arXiv ID: 2512.17875v1
- 카테고리: cs.CV, cs.LG
- 출판일: 2025년 12월 19일
- PDF: PDF 다운로드