[Paper] VLMs는 인지하는가, 기억하는가? 고전 시각 착시를 통한 시각 인지와 기억 탐구
Source: arXiv - 2601.22150v1
개요
논문 **“Do VLMs Perceive or Recall? Probing Visual Perception vs. Memory with Classic Visual Illusions”**는 대형 비전‑언어 모델(VLM)이 착시가 포함된 이미지를 인간이 즉시 알아차리는 변형(이미지를 뒤집는 등) 후에도 동일한 답변을 제공하는 이유를 조사합니다. 체계적인 탐색 프레임워크(VI‑Probe)를 도입함으로써, 저자들은 VLM이 시각적 변화를 실제로 보고 있는지, 아니면 훈련 데이터에서 기억한 패턴을 회상하고 있는지 여부를 구분하려고 합니다.
주요 기여
- VI‑Probe 프레임워크: 단계적인 교란과 일치하는 비환상 대조군을 포함한 고전 시각 착시 자극의 제어 가능한 모음으로, VLM 행동을 세밀하게 탐색할 수 있게 함.
- 새로운 평가 지표:
- Polarity‑Flip Consistency (착시의 극성이 반전될 때 모델이 답변을 바꾸는지를 측정).
- Template Fixation Index (정적인 텍스트 템플릿에 대한 의존도를 포착).
- Illusion Multiplier (일치하는 대조군에 대비해 착시로 인한 응답 변화를 정규화).
- 포괄적인 실증 연구: 여러 VLM 계열(GPT‑5, Claude‑Opus‑4.1, Qwen‑variants 등)을 대상으로 이질적인 실패 양상이 단일 “메모리‑전용” 설명보다 더 복합적임을 밝혀냄.
- 오픈‑소스 공개: 데이터셋, 코드 및 분석 스크립트를 공개하여 향후 VLM에 대한 재현 가능한 탐색을 장려함.
방법론
-
Stimulus Design – 저자들은 여러 고전 시각 착시군(예: Müller‑Lyer, Kanizsa, Rubin’s vase)을 선택했습니다. 각 착시마다 세 가지 버전을 생성했습니다:
- Original (표준 착시).
- Polarity‑flipped (착시의 단서가 반전되어 반대 인지를 유발).
- Control (시각 레이아웃은 동일하지만 착시를 유발하는 요소가 없음).
이미지들은 여러 대비 수준으로 렌더링되어 graded perturbation 스펙트럼을 만듭니다.
-
Prompting Protocol – 각 이미지는 짧고 고정된 질문(예: “What shape do you see?”)과 함께 VLM에 입력됩니다. 동일한 프롬프트를 세 버전 모두에 사용하여 시각적 영향과 언어 편향을 분리합니다.
-
Metric Computation –
- Polarity‑Flip Consistency = 착시의 극성이 바뀔 때 모델의 답변이 바뀌는 비율.
- Template Fixation Index = 착시 이미지와 컨트롤 이미지에 대한 답변 간 유사도(값이 높을수록 기억된 텍스트 템플릿에 의존함을 의미).
- Illusion Multiplier = (착시에서의 응답 변화) / (컨트롤에서의 응답 변화), 기본 언어 드리프트를 초과하는 시각 민감도를 정량화.
-
Model Suite – 이 연구는 멀티모달 GPT‑5부터 오픈소스 Qwen‑VL까지, 독점 및 학술 시스템을 포함한 9개의 최신 VLM을 평가합니다.
Results & Findings
| Model | Polarity‑Flip Consistency | Template Fixation Index | Illusion Multiplier |
|---|---|---|---|
| GPT‑5 | 0.12 (낮음) | 0.84 (높음) | 0.15 (기억‑지배) |
| Claude‑Opus‑4.1 | 0.48 (보통) | 0.62 (혼합) | 0.55 (지각‑기억 줄다리기) |
| Qwen‑VL‑7B | 0.71 (높음) | 0.41 (시각‑중심) | 0.78 (시각‑처리 제한) |
| … | … | … | … |
- 단일 실패 모드가 없음: 일부 모델(GPT‑5)은 시각적 플립을 거의 무시하는데, 이는 학습된 텍스트 패턴이 지배하는 기억 오버라이드를 시사한다. 다른 모델(Claude‑Opus‑4.1)은 시각적 단서와 기억된 템플릿 사이에 경쟁을 보이며, 대비가 높은 플립에서만 답을 바꾼다. Qwen 변형은 시각적 변화에 더 많이 반응하지만 여전히 상한 효과를 보여 시각‑처리 용량 제한을 암시한다.
- 그라디언트 민감도: 모든 모델에서 대비가 높을수록(환상이 강할수록) Illusion Multiplier가 상승한다. 이는 VLM이 시각적 변화를 완전히 무시하지는 않지만 인간보다 훨씬 민감도가 낮다는 것을 확인한다.
- 대조군 기준: 대조 이미지(환상 없음)에서도 모델이 가끔 답변이 변동하는데, 이는 언어‑전용 노이즈에 대한 정규화의 중요성을 강조한다.
실용적 함의
- Reliability of VLM‑driven UI/UX – 시각 QA(예: 이미지를 설명하는 접근성 도구)에 VLM을 활용하는 애플리케이션은 미묘한 시각적 단서나 적대적 패턴에 직면했을 때 안정적이지만 잘못된 설명을 생성할 수 있습니다.
- Safety & Content Moderation – VLM이 시각적 변화를 무시하도록 “속일” 수 있다면, 악의적인 행위자는 모델이 감지하지 못하는 유해한 시각 신호를 삽입할 수 있으며, 텍스트 프롬프트는 여전히 무해하게 유지됩니다.
- Model Debugging & Auditing – VI‑Probe 메트릭은 엔지니어에게 모델이 언어 선행지식에 과도하게 의존하고 있는지, 실제 시각 인식에 기반하고 있는지를 파악할 수 있는 구체적인 진단 도구를 제공하여, 목표에 맞는 파인‑튜닝이나 아키텍처 변경을 안내합니다.
- Benchmark Design – 이 프레임워크는 의료 영상과 같이 인식과 기억된 패턴을 구분하는 것이 중요한 다른 도메인에도 확장 적용할 수 있습니다.
제한 사항 및 향후 연구
- Illusions 범위 – 이 연구는 몇 가지 고전적인 2‑D 착시 현상에 초점을 맞추었으며, 보다 복잡하고 실제 세계의 시각적 모호성(예: 조명 변화, 가림 현상)은 아직 테스트되지 않았습니다.
- 프롬프트 다양성 – 단일 고정 프롬프트를 사용함으로써 시각 효과를 분리했지만, 프롬프트 엔지니어링이 메모리 편향을 완화하거나 악화시킬 수 있는 방식을 포착하지 못합니다.
- 모델 접근성 – 일부 독점 VLM(예: GPT‑5)은 API를 통해 평가되었으며 내부 표현에 대한 제어가 제한되어 추론 시 캐싱과 실제 인식을 혼동할 가능성이 있습니다.
- 향후 방향 – 저자들은 VI‑Probe를 비디오 스트림으로 확장하고, 인간 기준을 위한 눈 추적 데이터를 통합하며, 템플릿 고착을 줄이기 위한 학습 단계 개입(예: 대비 시각‑언어 목표) 탐색을 제안합니다.
핵심: 이 연구는 오늘날의 대형 VLM이 아직 인간과 같은 시각 인식에서 크게 떨어져 있음을 보여줍니다. 체계적인 탐색 도구킷을 제공함으로써, 저자들은 개발자들에게 점점 더 우리 앱을 구동하는 모델들의 시각 민감성을 감사하고 개선할 실용적인 방법을 제공합니다.
저자
- Xiaoxiao Sun
- Mingyang Li
- Kun yuan
- Min Woo Sun
- Mark Endo
- Shengguang Wu
- Changlin Li
- Yuhui Zhang
- Zeyu Wang
- Serena Yeung‑Levy
논문 정보
- arXiv ID: 2601.22150v1
- 분류: cs.CV
- 출판일: 2026년 1월 29일
- PDF: Download PDF