[Paper] 같은 내용, 다른 답변: MLLMs의 크로스모달 불일치
Source: arXiv - 2512.08923v1
개요
논문 “Same Content, Different Answers: Cross‑Modal Inconsistency in MLLMs” 은 오늘날의 멀티모달 대형 언어 모델(MLLM)에서 놀라운 맹점을 밝혀냅니다. 텍스트, 이미지 또는 두 가지를 혼합한 동일한 의미 정보를 제공하더라도 모델은 종종 다른 답변을 제시합니다. 이 문제를 진단하고 정량화하기 위해 저자들은 두 개의 새로운 벤치마크—REST 와 REST+ (Render‑Equivalence Stress Tests)—를 도입하여 MLLM이 모달리티 간에 얼마나 일관되게 추론하는지를 체계적으로 탐색합니다.
주요 기여
- 두 개의 새로운 벤치마크 (REST & REST+): 동일한 사실적 내용을 전달하는 텍스트, 이미지, 혼합 형태의 삼중항(triplet) 집합을 curated하여 모달리티 간 일관성을 직접 측정할 수 있게 함.
- 최신 15개 MLLM에 대한 포괄적 평가: 오픈소스와 상용 모델을 포함해 일관성 점수에서 큰 변동성을 드러냄.
- 시각적 요인에 대한 심층 분석: 텍스트 색상, 해상도, 비전 토큰 수가 성능에 영향을 미치지만 폰트 스타일은 영향을 주지 않음을 입증.
- 모달리티 격차와의 메커니즘 연결: 모델의 일관성 점수가 텍스트와 이미지 표현 사이의 임베딩 공간 거리와 상관관계가 있음을 보여주어 정량적 진단 지표를 제공.
- 오픈소스 공개: 벤치마크 데이터, 평가 스크립트, 일관성 메트릭을 커뮤니티에 공개.
방법론
-
벤치마크 구성
- REST: 1,200개의 의미 사실(예: “에펠탑은 파리에 있다”)을 순수 텍스트, 동일 문장의 렌더링 이미지, 그리고 혼합 프롬프트(이미지 + 텍스트) 형태로 제공.
- REST+: REST에 스트레스‑테스트 변형을 추가—다양한 텍스트 색상, 해상도, 토큰 수—를 통해 시각적 견고성을 탐색.
-
모델 선택 및 프롬프트
- BLIP‑2, LLaVA 등 비전‑언어 트랜스포머, GPT‑4V 같은 인스트럭션‑튜닝 모델, MiniGPT‑4 등 오픈소스 대안을 포함한 15개 MLLM.
- 동일 프롬프트: “제공된 내용을 기반으로 질문에 답하십시오.” 같은 질문을 각 모달리티에 대해 동일하게 제시.
-
일관성 점수 산정
- 답변을 정규화(대소문자 통일, 동의어 매핑)한 뒤 모달리티 간 쌍별로 비교.
- 일관성 점수 = 1 – 평균 쌍별 불일치율 (0 = 완전 불일치, 1 = 완전 일치).
-
통제 분석
- OCR 정확도를 별도로 측정해 순수 시각 임베딩 효과를 분리.
- 색상, 해상도, 토큰 수를 변화시키는 소거 실험을 수행하면서 기본 텍스트는 고정.
결과 및 발견
| 모델 | 평균 일관성 (REST) | 평균 일관성 (REST+) |
|---|---|---|
| GPT‑4V (독점) | 0.78 | 0.71 |
| LLaVA‑1.5‑13B | 0.55 | 0.48 |
| MiniGPT‑4‑7B | 0.42 | 0.35 |
| BLIP‑2‑FlanT5‑XXL | 0.61 | 0.54 |
- 큰 변동성: 최상위 모델조차 일관성에서 30 % 이상 차이.
- OCR만으로는 설명되지 않음: OCR 오류를 보정한 뒤에도 불일치가 지속되어 보다 근본적인 표현 격차가 존재함을 시사.
- 시각적 속성의 영향: 저대비 텍스트(예: 흰 배경에 연회색)와 저해상도 렌더링은 일관성을 최대 15 % 감소시킴; 폰트 스타일은 미미한 영향.
- 토큰 수 효과: 비전 토큰이 더 많이 요구되는 이미지(크거나 복잡한 장면)는 일관성이 낮아져 시각 인코더의 용량 한계를 암시.
- 모달리티 격차 상관관계: 일관성 점수와 텍스트 vs. 이미지 임베딩의 유클리드 거리 사이에 Pearson r = 0.68의 상관관계가 관찰되어, 임베딩 격차가 클수록 불일치가 증가한다는 가설을 뒷받침.
실용적 함의
- 혼합‑모달 파이프라인의 신뢰성: OCR 기반 텍스트 추출과 직접 이미지 이해를 전환하는 애플리케이션(예: 문서 AI, 시각 어시스턴트)에서는 성능이 교환 가능하다고 가정하면 안 됨.
- 벤치마크 기반 모델 선택: REST/REST+를 CI/CD 테스트에 통합해 중요한 사용 사례에 필요한 일관성 임계값을 만족하는 모델을 선별 가능.
- 프롬프트 엔지니어링: “형식에 관계없이 아래 내용은 사실이다”와 같은 모달리티‑불변 프롬프트를 추가하면 일관성이 약간 개선되지만 구조적 해결책을 대체할 수는 없음.
- 모델 설계 가이드: 모달리티 격차와의 상관관계는 향후 MLLM 아키텍처가 시각 및 텍스트 인코더 간 정렬을 강화해야 함을 시사—예를 들어 교차‑모달 일관성 손실을 포함한 공동 대비 학습.
- 사용자 경험: 일관성 없는 답변은 신뢰를 저하시킴. UI 디자이너는 형식에 따라 답변이 달라질 경우 “신뢰도” 지표를 표시해 사용자를 경고하는 방안을 고려할 수 있음.
한계 및 향후 연구
- 내용 범위: 벤치마크는 사실 진술에 초점을 맞추며, 추론이 많이 요구되는 서술형이나 이야기형 콘텐츠에서는 다른 불일치 패턴이 나타날 수 있음.
- 언어 커버리지: 모든 프롬프트가 영어이며, 다국어 일관성은 아직 탐색되지 않음.
- 정적 평가: 일관성‑지향 데이터로 파인튜닝했을 때 모달리티 격차가 어떻게 변하는지는 평가되지 않음.
- 하드웨어 제약: 일부 대형 모델은 전체 벤치마크를 실행할 GPU 메모리 부족으로 평가되지 않아, 표본이 상대적으로 작은 모델에 편향될 가능성이 있음.
향후 연구 방향은 REST+를 다국어 및 멀티모달 추론 과제로 확장하고, 모달리티 격차를 직접 최소화하는 학습 목표를 개발하며, 비전 토큰 병목을 완화하기 위한 동적 토큰 할당 전략을 탐구하는 것을 포함합니다.
저자
- Angela van Sprang
- Laurens Samson
- Ana Lucic
- Erman Acar
- Sennay Ghebreab
- Yuki M. Asano
논문 정보
- arXiv ID: 2512.08923v1
- 분류: cs.AI
- 발표일: 2025년 12월 9일
- PDF: Download PDF