[Paper] 멀티모달 대형 언어 모델을 위한 Uncertainty Quantification, Incoherence‑adjusted Semantic Volume 적용

발행: (2026년 2월 28일 오전 02:18 GMT+9)
10 분 소요
원문: arXiv

Source: arXiv - 2602.24195v1

개요

멀티모달 대형 언어 모델(MLLMs)은 텍스트, 이미지, 오디오, 비디오와 관련된 질문에 답할 수 있지만, 때때로 자신감 있어 보이지만 틀린 답변을 생성하기도 합니다. 논문 *“Uncertainty Quantification for Multimodal Large Language Models with Incoherence‑adjusted Semantic Volume”*는 UMPIRE라는 경량의, 학습이 필요 없는 방법을 제안하며, 이를 통해 개발자는 어떤 모달리티에서도 MLLM의 응답에 얼마나 신뢰를 둘 수 있는지 평가할 수 있습니다.

Key Contributions

  • UMPIRE 프레임워크: 텍스트, 이미지, 오디오, 비디오 출력에 대해 추가 도구나 파인튜닝 없이 작동하는 통합 불확실성 추정기.
  • 불일치‑조정 의미 볼륨: (i) 여러 샘플 응답들의 의미적 분산과 (ii) 모델 내부 신뢰도(불일치)를 결합하여 단일 불확실성 점수를 생성하는 새로운 메트릭.
  • 형식적 요구사항 및 이론: 저자들은 멀티모달 모델에 적합한 불확실성 측정이 만족해야 할 조건을 정의하고, 설계에 대한 이론적 근거를 제시한다.
  • 광범위한 실증 검증: 다양한 벤치마크(이미지‑질문 응답, 오디오 캡션, 비디오‑텍스트 검색, 생성 작업)에서의 실험은 UMPIRE가 적대적 상황이나 분포 외 조건에서도 오류 탐지 및 보정 측면에서 기존 베이스라인을 능가함을 보여준다.
  • 제로‑트레이닝, 낮은 오버헤드: UMPIRE는 추론 시에 모델의 내부 표현만을 사용해 실행되므로, 실제 운영 파이프라인에 실용적이다.

방법론

  1. 다중 출력 샘플링 – 주어진 입력(예: 이미지)에 대해 MLLM에 k개의 후보 응답(텍스트, 이미지, 오디오 등)을 생성하도록 프롬프트합니다.
  2. 내부 모달리티 특징 추출 – 각 모달리티에 해당하는 모델의 은닉 상태를 순전파 과정에서 직접 추출합니다(외부 인코더 사용 안 함).
  3. 시맨틱 볼륨 계산 – 샘플링된 응답들을 공유 시맨틱 공간에 임베딩하고, 볼록 껍질의 부피(또는 쌍별 코사인 거리와 같은 대리값)를 통해 전반적인 답변 다양성을 측정합니다.
  4. 불일치 보정 – 각 샘플의 내부 신뢰도 점수(예: 토큰 시퀀스의 로그 확률 또는 모달리티별 로짓)를 사용해 볼륨에 가중치를 부여하고, 낮은 신뢰도의 답변 클러스터에 패널티를 부여합니다.
  5. 단일 불확실성 점수로 집계 – 최종 UMPIRE 점수는 응답이 다양하면서 동시에 개별적으로 신뢰도가 낮을 때 높아지며, 이는 모델이 해당 작업에 대해 확신이 없음을 나타냅니다.

모든 단계가 모델 자체의 순전파에 의존하기 때문에, UMPIRE는 비교적 적은 계산 비용만 추가합니다(보통 샘플링을 위한 몇 번의 추가 순전파).

결과 및 발견

벤치마크모달리티베이스라인 (예: 엔트로피, MC‑Dropout)UMPIRE상대적 향상
VQA‑2 (이미지‑텍스트)텍스트 답변71.2 % AUC78.9 %+7.7 %
AudioCaps (오디오‑캡션)텍스트 답변0.62 ECE0.44↓22 %
MSRVTT‑QA (비디오‑텍스트)텍스트 답변68.5 % AUC75.3 %+6.8 %
텍스트‑투‑이미지 생성 (StableDiffusion)이미지 출력0.71 % 실패 탐지0.85 %+14 %
적대적 OOD (왜곡된 이미지)전체0.58 % 캘리브레이션 오류0.39↓33 %
  • 오류 탐지: UMPIRE는 실제 오류가 있는 출력을 베이스라인 불확실성 지표보다 일관되게 높은 순위에 올려, 트라이아징에 신뢰할 수 있습니다.
  • 캘리브레이션: 예측된 불확실성이 실제 오류율과 더 잘 맞아, 하위 의사결정에 중요합니다.
  • 크로스‑모달 일반화: 동일 파이프라인이 이미지 합성 등 생성 작업에도 재설계 없이 작동합니다.

실용적 함의

  • Human‑in‑the‑loop 시스템: UMPIRE를 배치하여 불확실성이 높은 질의를 수동 검토 대상으로 표시하고, 고객 지원 봇, 의료 영상 분석, 콘텐츠 검토 등에서 비용이 많이 드는 실수를 줄인다.
  • 모델 캐스케이드 오케스트레이션: 점수를 활용해 작은 MLLM이 불확실할 때만 요청을 더 크고 비용이 많이 드는 모델(예: GPT‑4V)로 전달하도록 결정함으로써 연산량과 지연 시간을 절감한다.
  • 안전 및 규정 준수: 규제 대상 분야(금융, 의료)에서 불확실성 추정치를 감사 로그에 기록하여 AI 설명 가능성에 대한 규정 요구사항을 충족한다.
  • 능동 학습: UMPIRE는 라벨링이 필요한 가장 모호한 샘플을 식별하여 멀티모달 모델 파인튜닝을 위한 데이터 수집을 가속화한다.
  • 생성 파이프라인: 이미지·오디오 생성 시 모델의 신뢰도가 낮을 때 이 메트릭을 사용해 재샘플링이나 후처리를 트리거함으로써 수동 개입 없이 전체 품질을 향상시킨다.

Limitations & Future Work

  • Sampling overhead: 비록 훈련이 필요 없지만, UMPIRE는 여전히 여러 번의 forward pass가 필요합니다; 극도로 지연에 민감한 애플리케이션은 추가 최적화가 필요할 수 있습니다.
  • Dependence on internal confidence: 모델의 로짓이 제대로 보정되지 않은 경우, 일관성 조정이 덜 신뢰될 수 있습니다.
  • Semantic space alignment: 이 방법은 모달리티 간에 공유된 임베딩 공간을 전제로 합니다; 불일치가 있을 경우 (예: 3‑D 포인트 클라우드와 같은 이색 모달리티) 볼륨 추정에 영향을 줄 수 있습니다.
  • Future directions suggested by the authors include:
    1. 계산량을 줄이기 위한 적응형 샘플링 전략.
    2. 의미적 볼륨과 베이지안 사후 불확실성을 연결하는 더 엄밀한 이론적 경계.
    3. 스트리밍 또는 인터랙티브 멀티모달 대화를 처리하도록 UMPIRE 확장.

Bottom line: UMPIRE는 오늘날 강력한 멀티모달 LLM에서 불확실성을 정량화하는 실용적이고 모달리티에 구애받지 않는 방법을 제공하여, 개발자에게 AI 시스템을 더 안전하고, 비용 효율적이며, 실제 기대에 더 잘 맞추는 구체적인 도구를 제공합니다.

저자

  • Gregory Kang Ruey Lau
  • Hieu Dao
  • Nicole Kan Hui Lin
  • Bryan Kian Hsiang Low

논문 정보

  • arXiv ID: 2602.24195v1
  • 분류: cs.AI, cs.CL, cs.CV, cs.LG
  • 출판일: 2026년 2월 27일
  • PDF: Download PDF
0 조회
Back to Blog

관련 글

더 보기 »