[Paper] Visually Prompted 벤치마크는 놀라울 정도로 취약하다

발행: (2025년 12월 20일 오전 03:26 GMT+9)
9 min read
원문: arXiv

Source: arXiv - 2512.17875v1

개요

이 논문은 오늘날의 시각‑언어 모델(VLM)에서 놀라운 약점을 밝혀냅니다. 벤치마크가 시각 프롬프트—모델에게 어디를 바라볼지 알려주는 작은 표시(예: 색상 박스)—에 의존할 때, 그 표시의 색상, 크기, 심지어 JPEG 압축과 같은 사소하고 겉보기에 무관한 변화가 모델 순위를 크게 뒤바꿀 수 있습니다. 저자들은 표시 색상, 크기, JPEG 압축을 체계적으로 조정함으로써 벤치마크 결과를 조작할 수 있음을 보여주며, 현재 많은 VLM 리더보드의 신뢰성에 의문을 제기합니다.

주요 기여

  • 9개의 인기 있는 오픈‑ 및 클로즈드‑소스 VLM에 대한 두 가지 비주얼‑프롬프팅 작업에서의 실증적 취약성 분석.
  • “벤치마크 해킹” 시연: 색상·크기와 같은 간단한 시각 마커 조정으로 약한 모델(예: InternVL‑3‑8B)을 훨씬 큰 독점 시스템보다 우위에 올릴 수 있음.
  • 저수준 추론 요인 식별(JPEG 압축, API 이미지 전처리)으로 시각 프롬프팅 벤치마크에 불균형하게 영향을 줌.
  • VPBench 제작, 16가지 마커 변형을 포함한 선별된 대규모 벤치마크와 불안정성을 줄이기 위한 분석 도구 제공.
  • 데이터셋 및 평가 스크립트 오픈‑소스 공개(https://lisadunlap.github.io/vpbench/), 재현 가능하고 보다 견고한 VLM 테스트 가능.

Methodology

  1. Benchmark selection – 저자들은 각 질문이 이미지에 배치된 색상 마커와 짝을 이루는 기존 시각‑프롬프트 데이터셋(예: BLINK)을 재사용했습니다.
  2. Model suite – 오픈‑소스(InternVL‑3‑8B, LLaVA 등)와 클로즈드‑소스 상용 API(Gemini 2.5 Pro, GPT‑4V 등)를 아우르는 9개의 VLM을 평가했습니다.
  3. Prompt perturbations – 각 이미지에 대해 시각 마커를 여러 차원에서 체계적으로 변경했습니다:
    • Color (red → blue, green 등)
    • Size (tiny → slightly larger)
    • Opacity / border style
    • Compression (different JPEG quality levels)
  4. Evaluation pipeline – 동일한 텍스트 질문을 변형된 이미지와 함께 각 모델에 전달했으며, 답변은 원본 정답 라벨을 사용해 점수를 매겼습니다.
  5. Statistical analysis – 각 변형에 대한 순위, 평균 정확도, 분산을 계산하여 민감도를 정량화했습니다.
  6. Benchmark redesign – 관찰된 민감도를 기반으로 저자들은 모든 마커 변형을 하나의 더 큰 벤치마크(VPBench)로 통합하고, robust 점수(예: 변형별 평균)를 계산하는 스크립트를 제공했습니다.

결과 및 발견

항목관찰
마커 색상빨간색에서 파란색으로 전환했을 때 일부 모델에서는 정확도가 30 % 감소했으며, 다른 모델은 개선되어 순위표가 재배열되었습니다.
마커 크기마커를 약 10 px 정도 약간 확대하면 오픈소스 InternVL‑3‑8B가 원래 벤치마크에서 Gemini 2.5 Pro와 동등해졌습니다.
JPEG 압축품질을 100에서 70으로 조정한 압축은 시각적 내용이 의미적으로 동일함에도 불구하고 9개 모델 중 5개의 순위를 바꾸었습니다.
전체 변동성모든 교란에 걸쳐 모델 점수의 표준편차가 기존 (프롬프트가 없는) VLM 벤치마크보다 2–3배 높았습니다.
VPBench 영향16가지 변형을 통합한 VPBench에서 평가했을 때 변동성이 ≈45 % 감소했으며, 교란 전반에 걸쳐 순위가 더 안정되었습니다.

핵심 요점은 시각적 프롬프트가 모델이 붙잡는 숨겨진 “시각적 사전”을 도입해 실제 추론 과제와 무관한 저수준 시각적 단서에 취약하게 만든다는 것입니다.

실용적 시사점

  • Benchmark design: VLM 평가 스위트를 구축하는 팀은 단일 변형 시각 프롬프트를 피하고, 대신 마커 속성을 무작위화하거나 여러 변형을 사용해야 합니다 (VPBench와 같이).
  • Model debugging: 개발자는 제공된 분석 도구를 사용해 모델이 이미지 내용을 진정으로 이해하기보다 마커 색상/크기에 과적합했는지 진단할 수 있습니다.
  • API usage: 상업용 VLM API를 호출할 때 이미지 전처리(예: 자동 JPEG 압축)가 결과에 의도치 않게 편향을 줄 수 있음을 인지하고, 무손실 포맷을 전송하거나 압축 수준을 제어하는 것을 고려하세요.
  • Product reliability: 시각 QA(예: 문서 분석, 의료 영상 보조)에 VLM을 활용하는 애플리케이션은 사소한 시각적 아티팩트에 대한 견고함을 가정해서는 안 되며, 다양한 프롬프트를 통한 철저한 테스트가 필수입니다.
  • Fair competition: VLM을 순위 매기는 리더보드는 시각 프롬프트 사양을 공개하고, 가능하면 견고성 점수 (여러 마커 스타일에 대한 평균 성능)를 보고해야 합니다.

제한 사항 및 향후 연구

  • 작업 범위: 이 연구는 두 가지 시각‑프롬프팅 작업에 초점을 맞추었으며, 보다 넓은 작업군(예: 비디오 QA, 멀티모달 추론)에서는 다른 민감도가 나타날 수 있습니다.
  • 모델 다양성: 아홉 개 모델을 테스트했지만, 급속히 확장되는 VLM 생태계로 인해 최신 아키텍처는 다르게 동작할 가능성이 있습니다.
  • 인간 인지 기준: 논문에서는 동일한 변형 프롬프트에 대한 인간 성능과 모델 취약성을 비교하지 않아, 관찰된 효과가 기계에만 특유한 것인지 여부가 남아 있습니다.
  • 완화 전략: VPBench는 변동성을 감소시키지만 완전히 제거하지는 못합니다; 향후 연구에서는 훈련 시 정규화(예: 마커‑비의존 데이터 증강) 등을 탐색해 모델 자체를 보다 견고하게 만들 수 있습니다.

이러한 공백을 강조함으로써, 저자들은 커뮤니티가 보다 안정적인 평가 방식을 개발하고, 표면적인 시각적 단서 너머를 실제로 “볼” 수 있는 VLM을 설계하도록 독려합니다.

저자

  • Haiwen Feng
  • Long Lian
  • Lisa Dunlap
  • Jiahao Shu
  • XuDong Wang
  • Renhao Wang
  • Trevor Darrell
  • Alane Suhr
  • Angjoo Kanazawa

논문 정보

  • arXiv ID: 2512.17875v1
  • 카테고리: cs.CV, cs.LG
  • 출판일: 2025년 12월 19일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »