[Paper] 표면 통계 너머: 내부 표현을 통한 LLM을 위한 강건한 Conformal Prediction

발행: 3주 전 (2026년 4월 18일 AM 01:28 GMT+9)

10 분 소요

원문: arXiv

Source: arXiv - 2604.16217v1

Overview

대형 언어 모델(LLM)은 질문 답변과 같은 높은 위험을 수반하는 작업에 사용되고 있지만, 일반적인 신뢰 신호(토큰 확률, 엔트로피, 자기 일관성)는 모델이 학습 데이터와 다른 데이터에 배포될 때 종종 무너지게 된다. 이 논문은 모델의 internal hidden states를 활용하여 표면 출력 대신에 적용하는 새로운 방식의 컨포멀 예측—사용자가 지정한 오류율을 보장하는 통계 기법—을 제시한다. 그 결과, 특히 도메인 이동 상황에서 LLM 답변에 대한 보다 신뢰할 수 있는 “confidence interval”을 제공한다.

주요 기여

Layer‑Wise Information (LI) 점수: 주어진 입력에 조건화될 때 모델의 내부 엔트로피가 레이어를 가로질러 얼마나 변하는지를 정량화하는 새로운 비일치 메트릭.
LI 기반 컨포멀 예측 파이프라인: LI 점수를 표준 split‑conformal 프레임워크에 통합하여 교환 가능성 하에서 유한 표본 타당성을 유지.
QA 벤치마크에 대한 실증 검증: 폐쇄형(다중 선택) 및 개방형 질문 응답 작업 모두에서 타당성‑효율성 트레이드오프가 우수함을 보여주며, 테스트 데이터가 훈련 데이터와 다른 도메인일 때 가장 큰 향상을 보임.
표현 수준 불확실성에 대한 통찰: 은닉 레이어의 동역학이 표면 통계보다 더 안정적일 수 있음을 보여주어 LLM의 견고성 연구에 새로운 관점을 제공.

Methodology

내부 활성화 수집 – 각 입력 질문에 대해, 저자들은 사전 학습된 LLM의 모든 트랜스포머 레이어에서 은닉 표현을 추출합니다.
레이어별 엔트로피 계산 – 각 레이어에서 표현을 어휘에 대한 분포(다음 토큰 로짓에 대한 소프트맥스)로 간주하고 예측 엔트로피를 계산합니다.
LI 점수 도출 – LI 점수는 조건이 없는 모델 (입력 없음)의 엔트로피와 실제 질문에 조건을 부여한 후의 엔트로피 차이이며, 레이어 전체에 걸쳐 집계됩니다. 직관적으로, 큰 감소는 모델의 내부 지식이 입력과 강하게 일치함을 의미하며, 이는 높은 신뢰도를 나타냅니다.
분할‑컨포멀 보정 – 보정용으로 별도 유지된 데이터셋을 사용해 LI 점수를 분위수 임계값으로 변환합니다. 이 임계값은 사용자 지정 위험 수준(예: 10 % 오류)으로 정의된 예측 집합(예: 답변 후보 집합)을 만들게 합니다.
추론 – 테스트 시, 새로운 질문에 대해 동일한 LI 점수를 계산하고 보정된 임계값과 비교하여 해당 답변 집합을 반환합니다. 그 집합에 정답이 포함되어 있으면 해당 인스턴스에 대해 방법이 유효한 것으로 간주됩니다.

이 파이프라인은 LLM의 학습 목표를 변경하지 않으며, 은닉 상태를 읽는 가벼운 후처리 단계만 추가합니다.

Results & Findings

설정	Baseline (token‑probability CP)	LI‑based CP	유효성 @ 10 % 위험	평균 집합 크기 (효율성)
도메인 내 QA	0.92	0.93	0.10 (target)	1.8 vs. 2.1
도메인 간 전이 (예: 의료 QA)	0.78	0.86	0.10 (target)	2.4 vs. 3.6
오픈 도메인 QA (검색 보강)	0.85	0.88	0.10 (target)	2.0 vs. 2.5

유효성 (실제 답변이 예측 집합 안에 들어가는 비율)은 일관되게 명목 위험 수준을 충족하여 컨포멀 보장을 확인합니다.
효율성 (예측 집합의 평균 크기)이 크게 향상되며, 특히 도메인 전이 상황에서 개발자는 신뢰성을 희생하지 않고 더 좁은 신뢰 구간을 얻을 수 있습니다.
소거 연구 결과, 전체 레이어에 걸친 엔트로피를 집계하는 것이 최종 레이어만 사용하거나 단일 중간 레이어만 사용하는 것보다 우수함을 보여주며, 전체 깊이‑별 관점의 가치를 강조합니다.

Practical Implications

Safer LLM APIs – 서비스 제공자는 각 답변과 함께 “confidence set”(신뢰도 집합)을 제공할 수 있어, 하위 애플리케이션이 이를 받아들일지, 명확히 물어볼지, 혹은 인간에게 넘길지를 결정하게 할 수 있다.
Dynamic routing – 다중‑모델 앙상블에서 LI 점수는 불확실한 질의를 보다 전문화된 모델이나 검색 시스템으로 라우팅하는 게이트 신호 역할을 할 수 있다.
Monitoring & alerting – LI 점수는 내부 활성화에서 도출되므로, 재학습 없이도 프로덕션에서 분포 변화를 감지하기 위해 지속적으로 로그에 기록할 수 있다.
Regulatory compliance – 유한‑표본 보장은 고영향 배포에 대해 정량화 가능한 오류 한계를 요구하는 새로운 AI‑위험 표준(예: EU AI Act)을 충족한다.
Low overhead – 이 방법은 은닉 상태를 수집하기 위해 한 번의 순전파만 필요하며, 적당한 검증 분할 외에 추가 파인‑튜닝이나 외부 보정 데이터가 필요하지 않다.

제한 사항 및 향후 연구

Exchangeability 가정 – Conformal 보장은 보정 데이터와 테스트 데이터가 교환 가능할 때만 성립한다; 심각한 공변량 이동은 여전히 이 전제를 위반할 수 있다.
매우 큰 모델에 대한 확장성 – 거대한 LLM(예: >100 B 파라미터)의 모든 레이어 활성화를 추출하면 지연 시간과 메모리 사용량이 증가할 수 있다; LI를 프루닝하거나 저‑랭크 근사화하는 방법이 필요할 수 있다.
작업 일반성 – 본 연구는 QA에 초점을 맞추었으며, LI 기반 Conformal 예측을 생성, 요약, 코드 합성 등으로 확장하는 것은 아직 미해결 과제이다.
보정 집합 크기 – 작은 보정 집합은 분위수 추정에 노이즈를 초래할 수 있다; 적응형 또는 온라인 Conformal 방법이 이를 완화할 수 있다.

전반적으로, 이 논문은 LLM 내부의 풍부한 깊이‑별 정보를 활용해 통계적으로 타당하고 실용적인 불확실성 추정치를 제공하는 유망한 길을 열었다. 신뢰할 수 있는 AI 서비스를 구축하는 개발자에게는 원시 모델 점수와 실제 신뢰 보증 사이의 격차를 메우는 구체적인 도구를 제공한다.

저자

Yanli Wang
Peng Kuang
Xiaoyu Han
Kaidi Xu
Haohan Wang

논문 정보

arXiv ID: 2604.16217v1
카테고리: cs.CL, cs.AI
출판일: 2026년 4월 17일
PDF: Download PDF

[Paper] 표면 통계 너머: 내부 표현을 통한 LLM을 위한 강건한 Conformal Prediction

Overview

주요 기여

Methodology

Results & Findings

Practical Implications

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] 인사이트를 활용한 비공식 정리 증명을 위한 추론 학습

[Paper] VEFX-Bench: 일반 비디오 편집 및 시각 효과를 위한 포괄적 벤치마크

[Paper] 벤치마킹에서 추론으로: 이중 측면, 베트남 법률 텍스트에 대한 LLM의 대규모 평가

[Paper] Gradient Fingerprints를 활용한 Reward Hacking 탐지 및 억제