[Paper] Decomposed Prompting은 지식 격차를 해결하지 못하지만 모델이 “I Don't Know”라고 말하도록 돕는다

발행: 4일 전 (2026년 2월 5일 오전 03:39 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2602.04853v1

개요

대형 언어 모델(LLM)은 사실적 질문에 답하는 데 뛰어나지만, 실제로는 모르는 경우에도 답을 아는 척하며 자신감 있는 환상을 만들어냅니다. 논문 *Decomposed Prompting Does Not Fix Knowledge Gaps, But Helps Models Say “I Don’t Know”*는 질문을 더 작은 단계로 나누는(분해 프롬프트) 방식이 LLM을 더 신뢰할 수 있게 만들 수 있는지 조사하고, 모델이 확신이 없을 때 포기하도록 하는 간단한 방법을 발견했습니다.

주요 기여

세 가지 프롬프트 방식 비교:
- Direct – 모델에게 한 번에 답하도록 요청합니다.
- Assistive – 힌트를 제공하는 외부 “도우미” 프롬프트를 제공합니다.
- Incremental – 질문을 하위 질문으로 분해하고 답변을 결합합니다.
Cross‑regime disagreement as a reliability signal: 세 가지 방식이 의견이 일치하지 않을 때, 답변이 틀릴 가능성이 크게 높아집니다.
Training‑free abstention policy: 방식들이 의견이 일치하지 않을 경우 답변을 거부함으로써, 추가 검색, 파인튜닝, 추가 모델 파라미터 없이도 환각을 크게 감소시킵니다.
Extensive evaluation: 여러 멀티‑홉 QA 벤치마크(예: HotpotQA, ComplexWebQuestions)와 모델 크기(2.7 B~175 B 파라미터)에서 실험한 결과, 이 방법이 전반적으로 효과적임을 보여줍니다.
Benchmarking against standard uncertainty baselines: 의견 불일치 기반 거부가 엔트로피 기반 및 신뢰도 점수 기반 기준을 F1 및 AUROC 모두에서 능가합니다.

Methodology

Prompt Design – 저자들은 질문을 모델에 제시하는 방식만 다르게 하여 기능적으로 동등한 세 가지 프롬프트를 설계합니다.
Inference Pipeline – 각 입력 질문에 대해 모델을 세 번 실행합니다(각 프롬프트마다 한 번씩)하고, 세 개의 텍스트 답변을 수집합니다.
Agreement Check – 세 답변이 모두 동일하거나(정규화된 동일한 답변에 매핑되는 경우) 시스템은 그 답변을 출력합니다. 답변이 서로 다르면 모델은 거부합니다(“I don’t know” 반환).
Evaluation Metrics – 답변을 제공한 부분에 대해 표준 QA 지표(Exact Match, F1)를 측정하고, 거부 품질은 AUROC와 캘리브레이션 곡선으로 평가합니다.
Baselines – 저자들은 다음과 비교합니다:
- Softmax confidence (최대 토큰 확률).
- 출력 분포의 엔트로피.
- Monte‑Carlo dropout (샘플링 기반 불확실성).

전체 파이프라인은 추가 학습, 검색, 외부 지식 소스 없이—다양한 프롬프트를 사용한 여러 번의 순방향 전파만으로 동작합니다.

결과 및 발견

모델 (크기)	기본 F1 (포기 없음)	불일치‑포기 후 F1	AUROC (오류 감지)
LLaMA‑2 7B	62.4 %	71.8 % (≈ 9 % 상승)	0.84
LLaMA‑2 13B	68.1 %	76.3 %	0.88
GPT‑3 175B	78.5 %	84.2 %	0.91

핵심 요점

분해를 통한 정확도 향상은 모델이 커질수록 감소합니다. 이는 최첨단 모델이 이미 많은 추론 단계를 내부화하고 있다는 기존 연구와 일치합니다.
불일치는 강력한 오류 예측자입니다: 두 체제 중 어느 하나라도 의견이 다르면 답이 틀릴 확률이 80 % 이상이며, 모델 크기에 관계없이 동일합니다.
포기는 전체 품질을 향상시킵니다: 모호한 경우에 답변을 거부함으로써, 시스템은 답변된 집합의 정밀도를 높이며 이는 안전이 중요한 응용 분야에 유용합니다.
추가 비용이 거의 없음: 이 방법은 추가적인 전방 패스 외에는 거의 비용이 들지 않으며, 검색 기반 파이프라인에 비해 계산적으로 저렴합니다.

Practical Implications

Safety‑first QA services – 기업은 모든 클로즈드‑북 LLM을 가벼운 “confidence guardrail”로 감싸서 단순히 세 개의 프롬프트를 실행하고 답변이 일치하지 않을 경우 답변을 포기하도록 할 수 있습니다. 이는 최종 사용자에게 잘못된 정보를 전달할 위험을 줄입니다.
Cost‑effective reliability – 파인‑튜닝이나 외부 지식 베이스가 필요 없으므로, 이 기법은 기존 API(예: OpenAI, Anthropic) 위에 최소한의 엔지니어링 노력으로 배포할 수 있습니다.
Debugging tool for developers – 불일치 패턴은 모델의 지식이 불안정한 주제를 강조하여 데이터 수집이나 프롬프트 전략을 안내할 수 있습니다.
Composable pipelines – 이 접근법은 검색‑증강 생성(RAG)과 결합할 수 있습니다: 먼저 불일치‑보류를 시도하고, 모델이 보류하면 검색 단계로 전환합니다. 이렇게 하면 필요할 때만 비용이 많이 드는 검색을 사용하는 하이브리드 시스템이 됩니다.
Regulatory compliance – 의료나 금융과 같은 분야에서는 “모른다”고 말할 수 있는 것이 법적 요구사항인 경우가 많으며, 이 방법은 그 요구를 충족시키는 간단한 방안을 제공합니다.

제한 사항 및 향후 연구

지연 시간 증가 – 세 번의 순방향 패스를 실행하면 추론 시간이 세 배가 됩니다; 실시간 애플리케이션의 경우 배치 처리나 모델 증류가 필요할 수 있습니다.
프롬프트 민감도 – 효과는 세 프롬프트 설계에 달려 있습니다; 부적절한 프롬프트 선택은 잘못된 불일치를 초래할 수 있습니다.
이진 포기 – 현재 정책은 엄격한 “예/아니오” 결정입니다. 향후 연구에서는 등급화된 신뢰 점수나 부분 답변 생성을 탐색할 수 있습니다.
다중 홉 QA에 한정된 범위 – 저자들이 여러 벤치마크에서 테스트했지만, 이 기법이 다른 작업(예: 코드 생성, 요약)으로 얼마나 잘 전이되는지는 아직 명확하지 않습니다.
더 큰 앙상블로의 확장 – 더 다양한 프롬프트나 모델을 추가했을 때 비용이 과도하지 않다면 신뢰성이 추가로 향상되는지 여부는 아직 해결되지 않은 질문입니다.

저자

Dhruv Madhwal
Lyuxin David Zhang
Dan Roth
Tomer Wolfson
Vivek Gupta

논문 정보

arXiv ID: 2602.04853v1
분류: cs.CL
출판일: 2026년 2월 4일
PDF: PDF 다운로드

[Paper] Decomposed Prompting은 지식 격차를 해결하지 못하지만 모델이 “I Don't Know”라고 말하도록 돕는다

개요

주요 기여

Methodology

결과 및 발견

Practical Implications

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] DFlash: 블록 디퓨전 for Flash Speculative Decoding

[Paper] 쿼리 인식 예산-계층 라우팅 학습 for Runtime Agent Memory

[Paper] Self-Distillation을 통한 멀티 토큰 예측

[Paper] Large Language Models를 이용한 PTSD 심각도 추정에 대한 체계적 평가: Contextual Knowledge와 Modeling Strategies의 역할