[Paper] LLM이 언어적 불확실성 표시를 사용하여 내재적 신뢰도를 신뢰성 있게 반영할 수 있을까?

발행: (2026년 5월 28일 AM 02:38 GMT+9)
9 분 소요
원문: arXiv

Source: arXiv - 2605.28778v1

개요

대형 언어 모델(LLMs)은 종종 “가능성이 높다” 혹은 “꽤 확신한다”와 같은 구절로 자신의 진술을 한정합니다. 이러한 인식적 표지(epistemic markers)가 유용하려면, 그것이 전달하는 자신감이 모델의 실제 불확실성과 일치해야 합니다. 이 논문은 다음과 같은 질문을 제기합니다: LLM이 특정 언어적 표지를 내부 자신감 수준에 신뢰성 있게 매핑할 수 있는가? 그리고 그 매핑은 작업(task) 및 데이터 분포(data distributions) 전반에 걸쳐 얼마나 안정적인가?

주요 기여

  • Formal definition of Marker Internal Confidence (MIC): 모델이 특정 작업에서 주어진 인식 마커에 암묵적으로 부여하는 신뢰도를 정량적으로 측정한 것.
  • Seven stability metrics: MIC 값이 데이터셋 내부, 유사 데이터셋 전체, 그리고 서로 다른 모델 패밀리 전체에서 일관성을 유지하는지 평가하는 도구.
  • Comprehensive empirical sweep: 8개의 인기 있는 LLM(GPT‑3.5, LLaMA‑2, Claude 포함)을 세 가지 다운스트림 작업(질문 응답, 사실 검증, 상식 추론) 및 여러 데이터 분할에 대해 평가함.
  • Evidence of systematic mis‑calibration: 모델이 마커를 model‑centrically(즉, 모델 자체가 학습한 의미론을 사용) 해석하도록 강제하더라도, 신뢰도 수준을 신뢰성 있게 구분하지 못한다는 증거.
  • Insight into ranking stability: 절대 MIC 값은 변동하지만, 마커들의 상대적 순서(예: “probably” > “possibly”)는 작업 전반에 걸쳐 대체로 유지됨.

방법론

  1. 마커‑조건부 프롬프트: 각 작업마다 저자들은 모델이 사전에 지정된 인식 마커(예: “가능성이 있다 …”)를 사용하도록 강제하는 여러 프롬프트를 생성했습니다.

  2. 실제 정답 신뢰도 추출: 정답이 맞을 실제 확률은 몬테‑카를로 샘플링(예: 여러 답변 추출, 앙상블 투표, 혹은 외부 오라클 검증)을 통해 추정했습니다.

  3. MIC 계산: 각 마커‑프롬프트 쌍에 대해

    $$\text{MIC} = \frac{1}{N}\sum_{i=1}^{N} \text{Ground‑truth correctness probability}_i$$

    여기서 (N)은 해당 마커가 사용된 예시의 개수입니다.

  4. 안정성 분석: 일곱 가지 지표는 (a) 내‑분포 변동성(동일 데이터, 다른 랜덤 시드), (b) 외‑분포 변동성(다르지만 관련된 데이터셋), 그리고 (c) 교차‑모델 변동성(다른 LLM 아키텍처)을 포착합니다.

  5. 베이스라인 비교: 무작위로 할당된 마커와 보정된 소프트‑맥스 신뢰도 베이스라인을 사용해 결과를 맥락화했습니다.

결과 및 발견

ModelTaskMIC range across markersRanking consistency (Kendall τ)
GPT‑3.5QA0.58 – 0.620.71
LLaMA‑2‑13BFact verification0.55 – 0.570.68
Claude‑2Commonsense0.60 – 0.630.73
  • 보정 오류 지속: 절대 MIC 값이 (≈ 0.55–0.63) 매우 밀집되어 있어 모델이 “likely” 혹은 “possibly”라고 말하더라도 내부적으로 신뢰도를 조정하지 않음을 나타낸다.
  • 순위 유지: 마커의 순서(예: “certainly” > “likely” > “possibly”)가 작업 전반에 걸쳐 안정적(τ ≈ 0.7)이며, 모델이 숫자 신뢰도는 부정확하지만 상대적 계층 구조를 학습했음을 시사한다.
  • 분포 간 드리프트: 뉴스 기사 QA 세트에서 생물의학 QA 세트로 이동할 때 MIC가 ±0.04까지 변동하여 마커‑신뢰도 매핑의 일반화가 부족함을 보여준다.
  • 모델 크기의 영향은 미미: 7B에서 70B 파라미터로 확장해도 MIC 안정성이 크게 개선되지 않아, 문제가 순전히 데이터‑주도라기보다 아키텍처적 요인에 기인함을 암시한다.

실용적 함의

  • 사용자용 AI 어시스턴트: LLM이 생성한 자신감 문구(예: “I’m pretty sure”)에 의존하면 신뢰성에 대한 잘못된 인식을 줄 수 있다. 개발자는 이러한 표시를 정성적 단서로 취급하고, 정량적 보증으로 여기지 말아야 한다.
  • 위험 인식 파이프라인: 고위험 애플리케이션(의료 트리아지, 법률 자문)에서는 모델 자체의 언어적 표시를 신뢰하는 대신 외부 보정 레이어(예: 온도 스케일링, 베이지안 사후 추정기)를 추가하여 LLM 출력을 보강해야 한다.
  • 프롬프트 엔지니어링: 마커만 요청하는 대신 자신감 점수(수치)를 마커와 함께 명시적으로 요청하면 더 실행 가능한 정보를 얻을 수 있다.
  • 평가 대시보드: 일곱 가지 MIC 안정성 지표를 모델 모니터링 도구에 통합하여 데이터 변동에 따라 모델의 자신감 언어가 기대 행동과 달리될 때 플래그를 표시할 수 있다.

제한 사항 및 향후 연구

  • 표시어 범위: 연구는 8개의 일반적인 인식 표시어 집합에 초점을 맞추었으며, 드물거나 도메인‑특정 표현은 다르게 동작할 수 있다.
  • 작업 다양성: 세 가지 작업군만 조사했으며, 생성 중심 작업(예: 코드 합성)으로 확장하면 새로운 패턴이 드러날 수 있다.
  • 실제 신뢰도 추정: 몬테‑카를로 샘플링은 실제 정답 확률을 근사하지만, 저자원 도메인에서는 노이즈가 발생할 수 있다.
  • 정렬 개입: 향후 연구는 표시어 사용을 보정된 신뢰도 점수와 직접 연결하는 학습 목표(예: 표시어 조건부 출력에 대한 대비 손실)를 탐구해야 한다.

핵심 요약: LLM은 일관된 신뢰도 표현 단어 계층을 학습했지만, 실제 확실성과 그 단어를 매핑하는 데는 보정이 부족하다. 신뢰할 수 있는 AI 시스템을 구축하는 개발자는 “likely”나 “possible”이 모델의 실제 신뢰도를 반영한다고 가정해서는 안 되며, 대신 강력한 보정 메커니즘을 도입해야 한다.

저자

  • Gabrielle Kaili‑May Liu
  • Arman Cohan

논문 정보

  • arXiv ID: 2605.28778v1
  • 분류: cs.CL
  • 출판일: 2026년 5월 27일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »