[Paper] HalluShift++: 언어와 비전을 연결하는 내부 표현 변화를 통한 MLLMs의 계층적 환각

발행: (2025년 12월 9일 오전 01:24 GMT+9)
7 min read
원문: arXiv

Source: arXiv - 2512.07687v1

Overview

논문 “HalluShift++: Bridging Language and Vision through Internal Representation Shifts for Hierarchical Hallucinations in MLLMs” 은 멀티모달 대형 언어 모델(MLLM)에서 발생하는 환각 문제—이미지에 실제로 나타난 내용과 모순되는 설득력 있는 출력—에 대해 다룹니다. 저자들은 외부 언어 모델을 사용해 이러한 오류를 찾는 대신, 모델 자체의 내부 활성화가 환각의 징후를 담고 있다고 주장합니다. 이 “표현 변동(representation shifts)”을 감지하고 해석함으로써, 기존 텍스트 전용 탐지 방법(HalluShift)을 멀티모달 영역으로 확장합니다.

Key Contributions

  • Internal‑signal hypothesis: 환각이 단순히 분포적 변동이 아니라 MLLM의 층별 활성화에서 측정 가능한 불규칙성으로 나타난다는 것을 입증합니다.
  • HalluShift++ framework: 원래 HalluShift 방법을 멀티모달 환경에 적용하고, 비전‑언어 융합 층 전반에 걸친 계층적 분석을 도입합니다.
  • Domain‑agnostic detection: 외부 LLM 평가자에 의존하지 않는 환각 탐지기를 제공하여 연쇄 오류를 감소시키고 특수 시각 도메인에 대한 적응성을 높입니다.
  • Open‑source implementation: 재현성과 커뮤니티 확장을 위해 전체 코드베이스(https://github.com/C0mRD/HalluShift_Plus)를 공개합니다.
  • Comprehensive evaluation: 여러 MLLM 아키텍처(예: BLIP‑2, LLaVA)와 데이터셋에 대해 HalluShift++를 벤치마크하고, 기존 외부‑LLM 기반 방법보다 우수한 정밀도/재현율을 보여줍니다.

Methodology

  1. Layer‑wise activation extraction: 이미지‑텍스트 쌍에 대해 모델의 은닉 상태를 여러 단계—시각 인코더, 교차 모달 융합, 언어 디코더 층—에서 캡처합니다.
  2. Shift quantification: 저자들은 “깨끗한” 기준 분포(정확히 정렬된 이미지‑캡션 쌍에서 얻음)와의 편차를 KL‑다이버전스와 코사인 거리와 같은 지표로 측정하여 representation shift score 를 계산합니다.
  3. Hierarchical aggregation: 초기 시각 층, 중간 융합 층, 후기 언어 층에서 얻은 점수를 학습된 가중치로 결합합니다. 이는 환각이 처리 과정의 어느 단계에서든 발생할 수 있다는 직관을 반영합니다.
  4. Thresholding & classification: 보정된 임계값을 적용해 집계된 변동 점수를 이진 환각 플래그(또는 신뢰도 스케일 확률)로 변환합니다.
  5. Training‑free operation: 탐지기는 사전 학습 없이 바로 사용할 수 있어, 기본 MLLM을 미세 조정할 필요가 없으며 개발자에게 경량 솔루션을 제공합니다.

Results & Findings

  • Detection accuracy: HalluShift++는 정제된 환각 벤치마크에서 ≈85% F1 을 달성했으며, 최고 외부‑LLM 평가자(≈73% F1)보다 우수합니다.
  • Layer importance: Ablation 연구에서 중간 융합 층이 가장 큰 신호를 제공함이 밝혀졌으며(전체 중요도의 ≈40%), 환각이 비전‑언어 통합 과정에서 자주 발생함을 확인했습니다.
  • Robustness across models: 이 방법은 다양한 MLLM 백본(BLIP‑2, LLaVA, MiniGPT‑4)에서도 재학습 없이 잘 일반화되어, 내부 변동 현상이 모델에 독립적임을 시사합니다.
  • Speed: 순전파만 필요하므로, 단일 RTX 3080에서 쿼리당 ≈15 ms 의 탐지 지연만 추가되어 실시간 파이프라인에 적합합니다.

Practical Implications

  • Safer AI assistants: 개발자는 HalluShift++를 채팅‑이미지 어시스턴트(예: 시각 QA 봇)에 삽입해 환각된 응답을 사용자에게 전달되기 전에 표시하거나 억제할 수 있습니다.
  • Content moderation: 소셜 플랫폼의 이미지 캡션 자동화 파이프라인에 탐지기를 적용해 사실과 다른 설명을 잡아내어 오해나 정책 위반을 방지할 수 있습니다.
  • Domain‑specific deployment: 일반 LLM에 의존하지 않으므로, 외부 LLM이 전문성을 갖추지 못한 의료 영상, 위성 이미지 등 특수 도메인에도 적용 가능합니다.
  • Debugging tool: 모델 엔지니어는 어느 층에서 변동이 가장 크게 나타나는지 시각화해, 환각을 유발하는 구조적 병목이나 학습 데이터 부족을 파악할 수 있습니다.
  • Cost reduction: 보조 LLM 평가자를 없애 inference 비용과 지연을 크게 낮출 수 있어, 엣지나 모바일 배포에 특히 유리합니다.

Limitations & Future Work

  • Reference distribution dependence: 탐지기는 깨끗한 이미지‑캡션 쌍 집합이 필요합니다; 매우 특수한 도메인에서는 이 집합을 구성하는 것이 어려울 수 있습니다.
  • Threshold sensitivity: 최적의 변동 점수 임계값은 작업별로 조정이 필요할 수 있으며, 일괄적인 임계값은 false positive/negative을 초래할 수 있습니다.
  • Scope of hallucination types: 현재 구현은 사실적 불일치에 초점을 맞추고 있어, 스타일이나 어조와 같은 미묘한 의미 변동은 명시적으로 포착하지 못합니다.
  • Future directions: 저자들은 HalluShift++를 캡션을 넘어 시각 스토리텔링 등 멀티모달 생성 작업에 확장하고, 강화 학습을 통한 적응형 임계값 적용 및 기준 분포의 자체 지도 학습 정제 등을 제안합니다.

Authors

  • Sujoy Nath
  • Arkaprabha Basu
  • Sharanya Dasgupta
  • Swagatam Das

Paper Information

  • arXiv ID: 2512.07687v1
  • Categories: cs.CL, cs.CV
  • Published: December 8, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »