[Paper] 프롬프트가 비전을 압도할 때: LVLMs의 Prompt-Induced Hallucinations

발행: 14시간 전 (2026년 4월 24일 AM 02:54 GMT+9)

10 분 소요

원문: arXiv

Source: arXiv - 2604.21911v1

위에 있는 소스 링크 아래에 번역하고 싶은 텍스트를 제공해 주시면, 해당 내용을 한국어로 번역해 드리겠습니다. (코드 블록, URL, 마크다운 형식 등은 그대로 유지됩니다.)

개요

Large Vision‑Language Models (LVLMs)은 시각적 질문에 답하고, 이미지를 설명하며, 심지어 다중 모달리티에 걸친 추론까지 인상적으로 수행할 수 있게 되었습니다. 그러나 여전히 hallucinations—그럴듯하게 들리지만 실제로는 이미지에 근거하지 않은 답변—에 시달립니다. 이 논문은 LVLM이 왜 환각을 일으키는지 분리해 보는 진단 벤치마크인 Halluscope를 소개하고, 과도하게 강한 텍스트 선행지식보다 시각 입력을 신뢰하도록 모델을 교육하는 미세조정 레시피 HallU‑VL‑DPO를 제안합니다.

주요 기여

Halluscope 벤치마크 – (a) 시각 백본 한계, (b) 언어 우위, (c) 텍스트 지시 사전 지식에 의해 발생하는 환각을 구분하는 체계적인 프롬프트 모음.
실증적 진단 – 가장 큰 원인은 비전 인코더의 결함이 아니라 프롬프트와 지시를 통해 주입된 텍스트 사전 지식에 대한 모델의 의존임을 보여준다.
HallU‑VL‑DPO 프레임워크 – 선별된 “grounded vs. hallucinated” 데이터셋에 Direct Preference Optimization (DPO)을 적용하여 모델의 의사결정을 시각적 충실도 쪽으로 재가중한다.
포괄적 평가 – DPO로 미세조정된 LVLM이 프롬프트 유발 환각을 감소시키면서 기존 환각 및 시각 추론 벤치마크에서 점수를 유지하거나 향상시킴을 보여준다.
오픈 리소스 – Halluscope 벤치마크, 선호도 학습 세트, 그리고 재현성과 커뮤니티 확장을 위한 코드를 공개한다.

Source: …

Methodology

1. Benchmark Design (Halluscope)

세 가지 테스트 케이스 패밀리를 구성함:
1. Vision‑only 질문 (텍스트 편향 최소화).
2. 강력한 세계 지식을 내포한 Language‑heavy 프롬프트 (예: “그림에 있는 에펠탑을 설명해 주세요”).
3. 시스템에게 “역사학자처럼 장면을 설명하라”는 지시를 내리는 Instruction‑driven 프롬프트.
각 케이스는 정답 시각적 답변과 설득력 있는 환각 방해 요소를 쌍으로 제공함.

2. Diagnosing the Failure Mode

여러 오프‑더‑쉘프 LVLMs (예: LLaVA, MiniGPT‑4)를 Halluscope에 적용함.
프롬프트 패밀리별 환각 비율을 측정하고, 지시문 제거, 비전 백본 교체 등과 같은 소거 실험을 수행함.

3. Preference‑Based Fine‑Tuning (HallU‑VL‑DPO)

Preference dataset을 수집: 각 이미지‑프롬프트 쌍에 대해, 주석자들이 grounded 응답을 hallucinated 응답보다 높게 순위 매김함.
Direct Preference Optimization을 적용했으며, 이는 강화 학습 없이 모델의 로짓을 직접 업데이트하여 선호 답변의 확률을 높이는 방법임.
언어 헤드만 미세조정하고 비전 인코더는 고정시켜, 접근 방식이 가볍고 기존 LVLM 체크포인트와 호환되도록 함.

4. Evaluation

미세조정된 모델을 Halluscope와 세 개의 공개 환각 벤치마크 (예: VQA‑Hallucination, MME‑Hallucination)에서 테스트함.
또한 표준 시각‑언어 지표 (VQA 정확도, 이미지 캡션 BLEU/ROUGE)를 측정하여 전반적인 능력에 회귀가 없는지 확인함.

결과 및 발견

Metric	Off‑the‑shelf LVLM	HallU‑VL‑DPO (fine‑tuned)
Halluscope hallucination rate (overall)	38%	12%
Instruction‑driven hallucinations	52%	14%
Vision‑only hallucinations	22%	10%
VQA accuracy (standard test set)	78.3%	79.1%
Image captioning CIDEr	112.5	113.8

주요 인사이트: 텍스트 지시가 환각을 크게 증폭시킨다; 해당 지시를 제거하면 동일한 LVLM이 훨씬 적게 환각한다.
HallU‑VL‑DPO는 목표 실패 모드를 약 75 % 감소시키면서 약간 시각‑언어 성능을 향상시켜, 모델이 언어 유창성을 희생하지 않고 시각적 증거를 우선시하도록 학습했음을 보여준다.
Ablation 실험은 비전 백본이 병목이 아님을 확인한다—DPO 동안 백본을 고정해도 큰 향상이 이루어져 “언어 우위” 가설을 강화한다.

실용적 시사점

보다 안전한 AI 어시스턴트: 멀티모달 챗봇(예: 전자상거래, 의료 영상)을 개발하는 개발자는 HallU‑VL‑DPO를 통합하여 자신 있게 잘못된 시각적 진술을 줄일 수 있습니다.
프롬프트 엔지니어링 가이드라인: 연구 결과는 지나치게 구체적인 지시를 피하고, 대신 중립적인 질문(“무엇이 보이나요?”)으로 모델을 유도하면 환각을 낮게 유지할 수 있음을 시사합니다.
플러그‑인‑플레이 파인튜닝: 언어 헤드만 업데이트하면 되므로 기존 LVLM 배포 환경을 몇 시간의 DPO 학습과 적당한 GPU 자원으로 손쉽게 업그레이드할 수 있습니다.
벤치마크 기반 QA 파이프라인: Halluscope는 새로운 LVLM 릴리스마다 회귀 테스트 역할을 수행하여 원시 정확도 향상이 시각적 근거와 충돌하지 않도록 보장합니다.
규제 준수: 사실 정확성이 요구되는 분야(예: 자율 검사, 법률 문서 분석)에서 이 접근법은 감사 가능한 구체적인 완화 전략을 제공합니다.

제한 사항 및 향후 연구

환각 범위: Halluscope는 프롬프트에 의해 유발되는 환각에 초점을 맞추며, 다른 실패 모드(예: 가림, 저해상도 입력)는 아직 충분히 탐구되지 않았다.
데이터셋 편향: 선호도 세트는 제한된 이미지 도메인(주로 일상 장면)에서 선별되었으며, 전문 분야(의료, 위성 등)에서의 성능은 다를 수 있다.
모델 크기 의존성: 실험은 7B‑13B LVLM에서 수행되었으며, 언어 사전 지식이 더 강할 수 있는 30B 이상 대형 모델에 방법이 어떻게 확장되는지는 아직 불명확하다.
사용자 제어 트레이드오프: 현재 DPO 손실은 grounding을 항상 선호하도록 설정되어 있으며, 향후 연구에서는 개발자가 애플리케이션별로 창의성 및 충실도 사이의 균형을 조정할 수 있게 할 수 있다.

저자들은 Halluscope를 보다 다양한 시각 도메인으로 확장하고, 멀티모달 DPO(오디오 포함)를 탐구하며, 고위험 지시 패턴을 자동으로 감지하고 억제하는 적응형 프롬프트 기법을 연구할 계획이다.

저자

Pegah Khayatan
Jayneel Parekh
Arnaud Dapogny
Mustafa Shukor
Alasdair Newson
Matthieu Cord

논문 정보

arXiv ID: 2604.21911v1
분류: cs.CV, cs.AI, cs.CL, cs.LG
출판일: 2026년 4월 23일
PDF: PDF 다운로드

[Paper] 프롬프트가 비전을 압도할 때: LVLMs의 Prompt-Induced Hallucinations

개요

주요 기여

Methodology

1. Benchmark Design (Halluscope)

2. Diagnosing the Failure Mode

3. Preference‑Based Fine‑Tuning (HallU‑VL‑DPO)

4. Evaluation

결과 및 발견

실용적 시사점

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] OMIBench: 대형 비전-언어 모델에서 올림피아드 수준 다중 이미지 추론 벤치마킹

[Paper] 빠르고 느린 것을 관찰하기: 비디오에서 시간 흐름 학습

[Paper] TingIS: 실시간 위험 이벤트 탐지 from Noisy Customer Incidents at Enterprise Scale

[Paper] Trust-SSL: 강인한 항공 Self-Supervised Learning을 위한 가산-잔차 선택적 불변성