왜 Image Hallucination이 Text Hallucination보다 더 위험한가
Source: Dev.to

소개
우리는 텍스트 환상에 대해 많은 이야기를 나눴지만, 이미지 환상은 매우 다른—그리고 종종 더 위험한—문제입니다. 비전‑언어 시스템에서 환상은 그럴듯한 거짓말이 아니라 시각적 현실을 창조해내는 것입니다.
예시
- 존재하지 않는 사람을 묘사하기
- 존재하지 않는 속성을 부여하기
- 절대 일어나지 않은 행동을 추론하기
영향 영역
- 전자상거래 제품 목록
- 접근성 캡션
- 문서 추출
- 의료 영상 워크플로우
이러한 맥락에서 환상의 비용은 “오답”에서 실제 세계에 미치는 결과로 전환됩니다.
평가 격차
대부분의 평가 파이프라인은 여전히 텍스트 중심입니다. 유창성, 관련성, 혹은 유사성을 점수화하지만 이미지가 실제로 설명을 뒷받침하는지는 확인하지 않습니다.
다중모달 평가
- 생성된 텍스트를 시각적 증거와 비교하기
- 객체 존재 여부, 속성 및 관계에 대해 추론하기
- 이미지와 출력 사이의 모순을 감지하기
결론
이미지 환상은 틈새 문제가 아니라, 비전 모델이 실제 서비스에 투입되면서 나타나는 새로운 신뢰성 격차를 의미합니다. 현실 세계의 위험을 완화하기 위해서는 견고한 다중모달 평가 방법을 개발하는 것이 필수적입니다.