[Paper] HaloProbe: 비전-언어 모델에서 객체 환각의 베이지안 탐지 및 완화

발행: (2026년 4월 8일 AM 02:58 GMT+9)
8 분 소요
원문: arXiv

Source: arXiv - 2604.06165v1

개요

BLIP‑2나 Flamingo와 같은 대형 비전‑언어 모델(VLM)은 놀라울 정도로 상세한 캡션을 생성할 수 있지만, 때때로 실제 이미지에 존재하지 않는 객체를 환각합니다. 이러한 오류를 감지하고 수정하는 것은 신뢰할 수 있는 AI 어시스턴트, 전자상거래 검색, 접근성 도구에 매우 중요합니다. 논문 HaloProbe: Bayesian Detection and Mitigation of Object Hallucinations in Vision‑Language Models는 기존의 어텐션 기반 탐지기가 신뢰성이 떨어지는 이유를 밝히고, 환각을 보다 정확하게 감지하고 생성 과정에서 비침습적 완화를 안내하는 베이지안 프레임워크를 제안합니다.

주요 기여

  • 주의 기반 탐지에 대한 비판적 분석: 토큰 위치와 객체 반복이 숨겨진 교란 변수로 작용하여 주의 통계를 집계할 때 심슨의 역설을 일으킴을 보여줍니다.
  • HaloProbe 베이지안 모델: 외부 설명 통계(예: 단어 빈도, 위치)와 내부 디코딩 신호(주의, 은닉 상태)를 분리하여 토큰 수준의 환각 확률을 계산합니다.
  • 균형 잡힌 학습 체계: 외부 특징이 환각 라벨과 상관관계가 없도록 만든 데이터셋에서 학습함으로써 내부 증거의 순수한 예측력을 분리합니다.
  • 완화를 위한 외부 스코어링: HaloProbe의 사후 확률을 디코딩 중(예: 핵심 샘플링) 플러그인 스코어링 함수로 사용하여 VLM의 가중치를 수정하지 않습니다.
  • 실증적 우수성: HaloProbe 기반 디코딩이 최신 개입 방법보다 환각 비율을 더 크게 감소시키면서도 캡션의 유창성과 관련성을 유지함을 입증합니다.

Source:

방법론

  1. 데이터 수집: 저자들은 이미지‑캡션 쌍의 대규모 집합에 토큰‑레벨 환각 라벨을 주석 달는다(예: 실제로 얼룩말이 없는데 “a zebra” 라벨).
  2. 교란 변수 식별: 통계 분석을 통해 문장 뒤쪽에 나타나는 토큰이나 반복되는 객체에 대해 실제 여부와 관계없이 어텐션 점수가 더 높다는 것을 확인한다.
  3. 베이지안 팩터화:
    • 사전 (P(\text{hallucination} \mid \text{external features})) 은 단어 빈도, 품사, 위치와 같은 통계로부터 학습된다.
    • 우도 (P(\text{internal signals} \mid \text{hallucination})) 은 외부 특징이 균등하게 분포된 균형 잡힌 서브셋에서 훈련되어, 모델이 VLM의 내부 증거(어텐션 맵, 은닉 상태)에 의존하도록 강제한다.
    • 사후 확률 (P(\text{hallucination} \mid \text{internal}, \text{external})) 은 베이즈 정리를 통해 계산되며, 토큰별 환각 확률을 제공한다.
  4. 점수를 통한 완화: 생성 과정에서 각 후보 토큰은 그 토큰의 환각 확률에 비례하는 패널티를 부여받는다. 디코더(예: 빔 서치 또는 누클리어스 샘플링)는 VLM 파라미터를 변경하지 않은 채, 사후 위험이 낮은 토큰을 선호한다.

결과 및 발견

지표기본 VLM주의‑전용 탐지기중재‑기반 완화HaloProbe‑가이드 디코딩
환각 비율 (객체)18.7 %15.2 %12.9 %9.4 %
CIDEr (캡션 품질)112.3110.8106.1111.5
인간 유창성 평점 (1‑5)4.64.54.14.5
  • 탐지 정확도: HaloProbe는 원시 어텐션 점수 대비 0.71에 비해 AUC 0.87을 달성합니다.
  • 완화 효과: 토큰을 재정렬하는 것만으로 HaloProbe는 기본 대비 환각을 약 50 % 감소시키면서 유틸리티 점수(CIDEr, 유창성)를 거의 변하지 않게 유지합니다.
  • 견고성: 베이지안 모델은 다양한 VLM 아키텍처(BLIP‑2, OFA)와 보지 못한 데이터셋 전반에 일반화되어, 팩터화가 내부 신호를 실제로 분리함을 확인합니다.

Practical Implications

  • Non‑intrusive plug‑in: 개발자는 기존의 VLM을 HaloProbe의 스코어링 모듈로 감싸서 비용이 많이 드는 파인튜닝이나 모델 수정을 피할 수 있습니다.
  • Safety‑critical pipelines: 의료 영상 보고서, 자율 주행 차량 인식, 접근성 자막 등에서 환각을 줄이면 신뢰도와 규제 준수성이 직접적으로 향상됩니다.
  • Search & recommendation: 전자상거래 플랫폼은 색인하기 전에 환각된 제품 속성을 필터링하여 보다 정확한 비주얼 검색 결과를 얻을 수 있습니다.
  • Developer tooling: 베이지안 사후 확률을 신뢰도 API로 제공함으로써 하위 서비스(예: UI 하이라이트, 인간이 참여하는 검증)가 위험도가 높은 토큰에 검토자의 주의를 집중시킬 수 있습니다.

제한 사항 및 향후 작업

  • 주석 비용: 토큰 수준의 환각 라벨을 얻는 비용이 많이 듭니다; 현재 접근 방식은 모든 도메인을 포괄하지 않을 수 있는 선별된 벤치마크에 의존합니다.
  • 외부 특징 집합: 현재 사전은 단순한 어휘 단서를 사용합니다; 보다 풍부한 의미적 컨텍스트(예: 씬 그래프)를 활용하면 탐지를 더욱 개선할 수 있습니다.
  • 실시간 오버헤드: 사후 확률을 계산하면 토큰당 약 10 ms 정도의 지연이 추가되어 초저지연 애플리케이션에 제약이 될 수 있습니다.
  • 향후 방향: 저자들은 HaloProbe를 다중 모달 생성(예: VQA, 시각적 스토리텔링)으로 확장하고, 명시적인 환각 라벨 없이 사전을 학습하는 자기 지도 방법을 탐구할 것을 제안합니다.

저자

  • Reihaneh Zohrabi
  • Hosein Hasani
  • Akshita Gupta
  • Mahdieh Soleymani Baghshah
  • Anna Rohrbach
  • Marcus Rohrbach

논문 정보

  • arXiv ID: 2604.06165v1
  • Categories: cs.CV, cs.LG
  • Published: 2026년 4월 7일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »