[Paper] Visually Prompted 벤치마크는 놀라울 정도로 취약하다

발행: 1개월 전 (2025년 12월 20일 오전 03:26 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2512.17875v1

개요

이 논문은 오늘날의 시각‑언어 모델(VLM)에서 놀라운 약점을 밝혀냅니다. 벤치마크가 시각 프롬프트—모델에게 어디를 바라볼지 알려주는 작은 표시(예: 색상 박스)—에 의존할 때, 그 표시의 색상, 크기, 심지어 JPEG 압축과 같은 사소하고 겉보기에 무관한 변화가 모델 순위를 크게 뒤바꿀 수 있습니다. 저자들은 표시 색상, 크기, JPEG 압축을 체계적으로 조정함으로써 벤치마크 결과를 조작할 수 있음을 보여주며, 현재 많은 VLM 리더보드의 신뢰성에 의문을 제기합니다.

주요 기여

9개의 인기 있는 오픈‑ 및 클로즈드‑소스 VLM에 대한 두 가지 비주얼‑프롬프팅 작업에서의 실증적 취약성 분석.
“벤치마크 해킹” 시연: 색상·크기와 같은 간단한 시각 마커 조정으로 약한 모델(예: InternVL‑3‑8B)을 훨씬 큰 독점 시스템보다 우위에 올릴 수 있음.
저수준 추론 요인 식별(JPEG 압축, API 이미지 전처리)으로 시각 프롬프팅 벤치마크에 불균형하게 영향을 줌.
VPBench 제작, 16가지 마커 변형을 포함한 선별된 대규모 벤치마크와 불안정성을 줄이기 위한 분석 도구 제공.
데이터셋 및 평가 스크립트 오픈‑소스 공개(https://lisadunlap.github.io/vpbench/), 재현 가능하고 보다 견고한 VLM 테스트 가능.

Methodology

Benchmark selection – 저자들은 각 질문이 이미지에 배치된 색상 마커와 짝을 이루는 기존 시각‑프롬프트 데이터셋(예: BLINK)을 재사용했습니다.
Model suite – 오픈‑소스(InternVL‑3‑8B, LLaVA 등)와 클로즈드‑소스 상용 API(Gemini 2.5 Pro, GPT‑4V 등)를 아우르는 9개의 VLM을 평가했습니다.
Prompt perturbations – 각 이미지에 대해 시각 마커를 여러 차원에서 체계적으로 변경했습니다:
- Color (red → blue, green 등)
- Size (tiny → slightly larger)
- Opacity / border style
- Compression (different JPEG quality levels)
Evaluation pipeline – 동일한 텍스트 질문을 변형된 이미지와 함께 각 모델에 전달했으며, 답변은 원본 정답 라벨을 사용해 점수를 매겼습니다.
Statistical analysis – 각 변형에 대한 순위, 평균 정확도, 분산을 계산하여 민감도를 정량화했습니다.
Benchmark redesign – 관찰된 민감도를 기반으로 저자들은 모든 마커 변형을 하나의 더 큰 벤치마크(VPBench)로 통합하고, robust 점수(예: 변형별 평균)를 계산하는 스크립트를 제공했습니다.

결과 및 발견

항목	관찰
마커 색상	빨간색에서 파란색으로 전환했을 때 일부 모델에서는 정확도가 30 % 감소했으며, 다른 모델은 개선되어 순위표가 재배열되었습니다.
마커 크기	마커를 약 10 px 정도 약간 확대하면 오픈소스 InternVL‑3‑8B가 원래 벤치마크에서 Gemini 2.5 Pro와 동등해졌습니다.
JPEG 압축	품질을 100에서 70으로 조정한 압축은 시각적 내용이 의미적으로 동일함에도 불구하고 9개 모델 중 5개의 순위를 바꾸었습니다.
전체 변동성	모든 교란에 걸쳐 모델 점수의 표준편차가 기존 (프롬프트가 없는) VLM 벤치마크보다 2–3배 높았습니다.
VPBench 영향	16가지 변형을 통합한 VPBench에서 평가했을 때 변동성이 ≈45 % 감소했으며, 교란 전반에 걸쳐 순위가 더 안정되었습니다.

핵심 요점은 시각적 프롬프트가 모델이 붙잡는 숨겨진 “시각적 사전”을 도입해 실제 추론 과제와 무관한 저수준 시각적 단서에 취약하게 만든다는 것입니다.

실용적 시사점

Benchmark design: VLM 평가 스위트를 구축하는 팀은 단일 변형 시각 프롬프트를 피하고, 대신 마커 속성을 무작위화하거나 여러 변형을 사용해야 합니다 (VPBench와 같이).
Model debugging: 개발자는 제공된 분석 도구를 사용해 모델이 이미지 내용을 진정으로 이해하기보다 마커 색상/크기에 과적합했는지 진단할 수 있습니다.
API usage: 상업용 VLM API를 호출할 때 이미지 전처리(예: 자동 JPEG 압축)가 결과에 의도치 않게 편향을 줄 수 있음을 인지하고, 무손실 포맷을 전송하거나 압축 수준을 제어하는 것을 고려하세요.
Product reliability: 시각 QA(예: 문서 분석, 의료 영상 보조)에 VLM을 활용하는 애플리케이션은 사소한 시각적 아티팩트에 대한 견고함을 가정해서는 안 되며, 다양한 프롬프트를 통한 철저한 테스트가 필수입니다.
Fair competition: VLM을 순위 매기는 리더보드는 시각 프롬프트 사양을 공개하고, 가능하면 견고성 점수 (여러 마커 스타일에 대한 평균 성능)를 보고해야 합니다.

제한 사항 및 향후 연구

작업 범위: 이 연구는 두 가지 시각‑프롬프팅 작업에 초점을 맞추었으며, 보다 넓은 작업군(예: 비디오 QA, 멀티모달 추론)에서는 다른 민감도가 나타날 수 있습니다.
모델 다양성: 아홉 개 모델을 테스트했지만, 급속히 확장되는 VLM 생태계로 인해 최신 아키텍처는 다르게 동작할 가능성이 있습니다.
인간 인지 기준: 논문에서는 동일한 변형 프롬프트에 대한 인간 성능과 모델 취약성을 비교하지 않아, 관찰된 효과가 기계에만 특유한 것인지 여부가 남아 있습니다.
완화 전략: VPBench는 변동성을 감소시키지만 완전히 제거하지는 못합니다; 향후 연구에서는 훈련 시 정규화(예: 마커‑비의존 데이터 증강) 등을 탐색해 모델 자체를 보다 견고하게 만들 수 있습니다.

이러한 공백을 강조함으로써, 저자들은 커뮤니티가 보다 안정적인 평가 방식을 개발하고, 표면적인 시각적 단서 너머를 실제로 “볼” 수 있는 VLM을 설계하도록 독려합니다.

저자

Haiwen Feng
Long Lian
Lisa Dunlap
Jiahao Shu
XuDong Wang
Renhao Wang
Trevor Darrell
Alane Suhr
Angjoo Kanazawa

논문 정보

arXiv ID: 2512.17875v1
카테고리: cs.CV, cs.LG
출판일: 2025년 12월 19일
PDF: PDF 다운로드

[Paper] Visually Prompted 벤치마크는 놀라울 정도로 취약하다

개요

주요 기여

Methodology

결과 및 발견

실용적 시사점

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] Re-Depth Anything: 테스트 시 자기지도 재조명을 통한 깊이 정제

[Paper] Open Foundation Models에서 Vision의 적대적 견고성

[Paper] RadarGen: 카메라에서 자동차 레이더 포인트 클라우드 생성

[Paper] 해석 가능한 식물 잎 질병 탐지: Attention-Enhanced CNN 활용