[Paper] Vision-Language 모델에서 프롬프트 유발 환각의 메커니즘
발행: (2026년 1월 9일 오전 03:23 GMT+9)
8 min read
원문: arXiv
Source: arXiv - 2601.05201v1
개요
대형 비전‑언어 모델(VLM)은 이미지에 대한 개방형 질문에 답할 수 있지만, 때때로 환각을 일으킵니다—시각적 증거가 반대임에도 불구하고 텍스트 프롬프트의 문구를 반복하거나 “복사”합니다. 이 논문은 간단한 객체‑계수 작업을 사용하여 현상을 드러내고 내부 구성 요소가 원인임을 정확히 규명합니다.
핵심 기여
- Controlled experimental setup: 프롬프트가 객체 수를 고의로 과장하여 환각을 쉽게 감지할 수 있는 깨끗한 객체‑계수 벤치마크를 도입합니다.
- Mechanistic discovery: 소수의 어텐션 헤드 (“PIH‑heads”)를 식별했으며, 이 헤드를 제거하면 세 가지 최첨단 VLM에서 프롬프트‑유도 환각(PIH)을 ≥ 40 % 감소시킵니다. 추가 학습은 필요하지 않습니다.
- Model‑specific analysis: 동일한 헤드가 각 아키텍처에서 다르게 동작함을 보여주어 프롬프트 복제가 구현되는 서로 다른 방식을 드러냅니다.
- Empirical validation: PIH‑heads를 제거하면 모델이 시각적 증거에 더 의존하도록 유도되어, 특히 객체 수가 많을 때 계수 정확도가 향상됩니다.
- Open‑source tooling: 카운팅 벤치마크와 헤드‑절단 실험을 위한 코드를 제공하여 재현성과 추가 탐색을 가능하게 합니다.
방법론
- 작업 설계 – 이미지에는 알려진 수의 동일한 객체(예: 수련)가 포함되어 있습니다. 프롬프트는 모델에게 실제 개수보다 많은 N개의 객체를 “설명하라”고 요청합니다.
- 평가된 모델 – 세 가지 인기 VLM(클립 기반 인코더‑디코더, 블립 스타일 모델, 플라밍고 영감을 받은 아키텍처).
- 프롬프트‑유도 환각 메트릭 – 모델 출력에서 언급된 숫자 개수를 파싱합니다; 이 개수가 시각적 실제값이 아니라 부풀려진 프롬프트와 일치할 때 환각이 발생합니다.
- 어텐션‑헤드 탐색 – 그래디언트 기반 어트리뷰션과 인과 매개 분석을 사용해, 환각된 개수와 강하게 상관되는 헤드를 찾습니다.
- 소거 실험 – 해당 헤드들을 추론 시에 0으로 설정하고, 환각 비율 및 전체 답변 품질에 미치는 영향을 측정합니다.
이 접근 방식은 의도적으로 가볍게 설계되었습니다: 파인‑튜닝 없이, 소수의 어텐션 헤드를 “외과적”으로 제거하는 타깃된 방법만을 사용합니다.
결과 및 발견
| Model | Baseline PIH rate (high count) | PIH rate after head ablation | Accuracy gain |
|---|---|---|---|
| CLIP‑Encoder‑Decoder | 68 % | 38 % | +12 % correct counts |
| BLIP‑style | 71 % | 34 % | +15 % correct counts |
| Flamingo‑like | 65 % | 31 % | +13 % correct counts |
- 헤드 수: 보고된 감소를 달성하기 위해 모델당 3–5개의 헤드만 제거하면 됩니다.
- 프롬프트 복사 메커니즘:
- CLIP‑based models: 헤드는 프롬프트의 숫자 토큰을 디코더의 언어 스트림에 직접 주입하는 단축키 역할을 합니다.
- BLIP: 헤드는 교차‑attention 전에 프롬프트 임베딩을 증폭합니다.
- Flamingo: 헤드는 시각‑텍스트 융합 레이어에 편향을 줍니다.
- 부작용 없음: 일반 언어 유창성 및 이미지 캡션 품질은 크게 변하지 않아, 해당 헤드가 환각 경로에 특화되어 있음을 확인합니다.
실용적 함의
- Debugging VLMs: 개발자는 식별된 PIH‑heads의 활동을 모니터링하도록 모델에 계측을 삽입할 수 있으며, 이를 환각이 발생하기 쉬운 질의에 대한 조기 경고 신호로 활용할 수 있습니다.
- 경량 완화: 비용이 많이 드는 파인‑튜닝이나 인간 피드백을 이용한 강화 학습 대신, 추론 시에 간단한 헤드 마스크를 적용하여 숫자 정확성이 중요한 작업(예: 재고 계산, 의료 영상 보고서)에서 신뢰성을 향상시킬 수 있습니다.
- 설계 가이드라인: 모델 설계자는 프롬프트 인코딩을 시각적 그라운딩과 의도적으로 분리하거나, 초기 어텐션 레이어에서 직접적인 프롬프트 복사를 억제하는 정규화를 추가할 수 있습니다.
- 안전 및 규정 준수: 환각을 감소시키면 사실 기반 출력을 제공해야 하는 AI 시스템(예: 자율 검사, 규정 보고)에서 규제 기준을 충족하는 데 도움이 됩니다.
Source:
제한 사항 및 향후 연구
- 작업 범위: 이 연구는 합성 카운팅 시나리오에 초점을 맞추었으며, 환각 역학은 보다 복잡하고 개방형 설명에서는 다르게 나타날 수 있습니다.
- 모델 다양성: 세 가지 VLM 패밀리만 조사했으며, 최신 멀티모달 트랜스포머(예: GPT‑4‑V, LLaVA)는 다른 환각 경로를 보일 수 있습니다.
- 소거 효과 부작용: 테스트한 벤치마크에서는 언어 유창성이 안정적으로 유지되었지만, 여기서 다루지 않은 다운스트림 작업에서는 미묘한 편향이 나타날 수 있습니다.
- 향후 방향: 실제 세계 데이터셋으로 분석을 확장하고, PIH‑head를 억제하는 학습 시 정규화 기법을 탐색하며, 다른 모달리티(오디오, 비디오)에서도 유사한 “복사‑단축” 헤드가 존재하는지 조사합니다.
저자
- William Rudman
- Michal Golovanevsky
- Dana Arad
- Yonatan Belinkov
- Ritambhara Singh
- Carsten Eickhoff
- Kyle Mahowald
논문 정보
- arXiv ID: 2601.05201v1
- 분류: cs.CV, cs.AI, cs.CL
- 출판일: 2026년 1월 8일
- PDF: Download PDF