[Paper] Decomposed Prompting은 지식 격차를 해결하지 못하지만 모델이 “I Don't Know”라고 말하도록 돕는다
Source: arXiv - 2602.04853v1
개요
대형 언어 모델(LLM)은 사실적 질문에 답하는 데 뛰어나지만, 실제로는 모르는 경우에도 답을 아는 척하며 자신감 있는 환상을 만들어냅니다. 논문 *Decomposed Prompting Does Not Fix Knowledge Gaps, But Helps Models Say “I Don’t Know”*는 질문을 더 작은 단계로 나누는(분해 프롬프트) 방식이 LLM을 더 신뢰할 수 있게 만들 수 있는지 조사하고, 모델이 확신이 없을 때 포기하도록 하는 간단한 방법을 발견했습니다.
주요 기여
- 세 가지 프롬프트 방식 비교:
- Direct – 모델에게 한 번에 답하도록 요청합니다.
- Assistive – 힌트를 제공하는 외부 “도우미” 프롬프트를 제공합니다.
- Incremental – 질문을 하위 질문으로 분해하고 답변을 결합합니다.
- Cross‑regime disagreement as a reliability signal: 세 가지 방식이 의견이 일치하지 않을 때, 답변이 틀릴 가능성이 크게 높아집니다.
- Training‑free abstention policy: 방식들이 의견이 일치하지 않을 경우 답변을 거부함으로써, 추가 검색, 파인튜닝, 추가 모델 파라미터 없이도 환각을 크게 감소시킵니다.
- Extensive evaluation: 여러 멀티‑홉 QA 벤치마크(예: HotpotQA, ComplexWebQuestions)와 모델 크기(2.7 B~175 B 파라미터)에서 실험한 결과, 이 방법이 전반적으로 효과적임을 보여줍니다.
- Benchmarking against standard uncertainty baselines: 의견 불일치 기반 거부가 엔트로피 기반 및 신뢰도 점수 기반 기준을 F1 및 AUROC 모두에서 능가합니다.
Methodology
- Prompt Design – 저자들은 질문을 모델에 제시하는 방식만 다르게 하여 기능적으로 동등한 세 가지 프롬프트를 설계합니다.
- Inference Pipeline – 각 입력 질문에 대해 모델을 세 번 실행합니다(각 프롬프트마다 한 번씩)하고, 세 개의 텍스트 답변을 수집합니다.
- Agreement Check – 세 답변이 모두 동일하거나(정규화된 동일한 답변에 매핑되는 경우) 시스템은 그 답변을 출력합니다. 답변이 서로 다르면 모델은 거부합니다(“I don’t know” 반환).
- Evaluation Metrics – 답변을 제공한 부분에 대해 표준 QA 지표(Exact Match, F1)를 측정하고, 거부 품질은 AUROC와 캘리브레이션 곡선으로 평가합니다.
- Baselines – 저자들은 다음과 비교합니다:
- Softmax confidence (최대 토큰 확률).
- 출력 분포의 엔트로피.
- Monte‑Carlo dropout (샘플링 기반 불확실성).
전체 파이프라인은 추가 학습, 검색, 외부 지식 소스 없이—다양한 프롬프트를 사용한 여러 번의 순방향 전파만으로 동작합니다.
결과 및 발견
| 모델 (크기) | 기본 F1 (포기 없음) | 불일치‑포기 후 F1 | AUROC (오류 감지) |
|---|---|---|---|
| LLaMA‑2 7B | 62.4 % | 71.8 % (≈ 9 % 상승) | 0.84 |
| LLaMA‑2 13B | 68.1 % | 76.3 % | 0.88 |
| GPT‑3 175B | 78.5 % | 84.2 % | 0.91 |
핵심 요점
- 분해를 통한 정확도 향상은 모델이 커질수록 감소합니다. 이는 최첨단 모델이 이미 많은 추론 단계를 내부화하고 있다는 기존 연구와 일치합니다.
- 불일치는 강력한 오류 예측자입니다: 두 체제 중 어느 하나라도 의견이 다르면 답이 틀릴 확률이 80 % 이상이며, 모델 크기에 관계없이 동일합니다.
- 포기는 전체 품질을 향상시킵니다: 모호한 경우에 답변을 거부함으로써, 시스템은 답변된 집합의 정밀도를 높이며 이는 안전이 중요한 응용 분야에 유용합니다.
- 추가 비용이 거의 없음: 이 방법은 추가적인 전방 패스 외에는 거의 비용이 들지 않으며, 검색 기반 파이프라인에 비해 계산적으로 저렴합니다.
Practical Implications
- Safety‑first QA services – 기업은 모든 클로즈드‑북 LLM을 가벼운 “confidence guardrail”로 감싸서 단순히 세 개의 프롬프트를 실행하고 답변이 일치하지 않을 경우 답변을 포기하도록 할 수 있습니다. 이는 최종 사용자에게 잘못된 정보를 전달할 위험을 줄입니다.
- Cost‑effective reliability – 파인‑튜닝이나 외부 지식 베이스가 필요 없으므로, 이 기법은 기존 API(예: OpenAI, Anthropic) 위에 최소한의 엔지니어링 노력으로 배포할 수 있습니다.
- Debugging tool for developers – 불일치 패턴은 모델의 지식이 불안정한 주제를 강조하여 데이터 수집이나 프롬프트 전략을 안내할 수 있습니다.
- Composable pipelines – 이 접근법은 검색‑증강 생성(RAG)과 결합할 수 있습니다: 먼저 불일치‑보류를 시도하고, 모델이 보류하면 검색 단계로 전환합니다. 이렇게 하면 필요할 때만 비용이 많이 드는 검색을 사용하는 하이브리드 시스템이 됩니다.
- Regulatory compliance – 의료나 금융과 같은 분야에서는 “모른다”고 말할 수 있는 것이 법적 요구사항인 경우가 많으며, 이 방법은 그 요구를 충족시키는 간단한 방안을 제공합니다.
제한 사항 및 향후 연구
- 지연 시간 증가 – 세 번의 순방향 패스를 실행하면 추론 시간이 세 배가 됩니다; 실시간 애플리케이션의 경우 배치 처리나 모델 증류가 필요할 수 있습니다.
- 프롬프트 민감도 – 효과는 세 프롬프트 설계에 달려 있습니다; 부적절한 프롬프트 선택은 잘못된 불일치를 초래할 수 있습니다.
- 이진 포기 – 현재 정책은 엄격한 “예/아니오” 결정입니다. 향후 연구에서는 등급화된 신뢰 점수나 부분 답변 생성을 탐색할 수 있습니다.
- 다중 홉 QA에 한정된 범위 – 저자들이 여러 벤치마크에서 테스트했지만, 이 기법이 다른 작업(예: 코드 생성, 요약)으로 얼마나 잘 전이되는지는 아직 명확하지 않습니다.
- 더 큰 앙상블로의 확장 – 더 다양한 프롬프트나 모델을 추가했을 때 비용이 과도하지 않다면 신뢰성이 추가로 향상되는지 여부는 아직 해결되지 않은 질문입니다.
저자
- Dhruv Madhwal
- Lyuxin David Zhang
- Dan Roth
- Tomer Wolfson
- Vivek Gupta
논문 정보
- arXiv ID: 2602.04853v1
- 분류: cs.CL
- 출판일: 2026년 2월 4일
- PDF: PDF 다운로드