[Paper] Agentic 불확실성이 Agentic 과신을 드러낸다

발행: 3일 전 (2026년 2월 7일 오전 03:49 GMT+9)

10 분 소요

원문: arXiv

Source: arXiv:2602.06948v1

개요

논문 Agentic Uncertainty Reveals Agentic Overconfidence은 AI 에이전트가 주어진 작업에서 자신의 성공 가능성을 정확하게 평가할 수 있는지를 조사한다. 에이전트의 자체 추정 성공 확률을 다양한 단계—시작하기 전, 작업 중, 그리고 작업 완료 후—에서 조사함으로써, 저자들은 에이전트가 과도하게 자신감을 가지는 체계적인 경향을 발견했으며, 이는 때때로 세 배에 달한다.

놀랍게도, 거친 사전 실행 추정치가 상세한 사후 실행 검토보다 성공적인 실행과 실패한 실행을 구분하는 데 더 효과적인 경우가 많다.

주요 기여

Formal definition of agentic uncertainty – 여러 실행 시점에서 에이전트 자체의 성공 확률을 이끌어내는 프레임워크.
Empirical evidence of agentic overconfidence across a range of language‑model‑based agents, including cases where actual success rates are as low as 22 % but predicted success exceeds 70 %. → 언어 모델 기반 에이전트 전반에 걸친 에이전트 과신에 대한 실증적 증거, 실제 성공률이 **22 %**에 불과한 경우도 포함해 예측 성공률이 **70 %**를 초과함.
Counter‑intuitive finding: pre‑execution confidence scores (with less information) can provide sharper discrimination between successful and failed attempts than post‑execution scores. → 역설적인 발견: 실행 전 신뢰 점수(정보가 적음)가 실행 후 점수보다 성공과 실패 시도를 더 명확히 구분할 수 있음.
Adversarial prompting technique that reframes the confidence query as a “bug‑finding” task, yielding the best calibration among tested methods. → 적대적 프롬프트 기법으로, 신뢰도 질의를 “버그 찾기” 작업으로 재구성하여 테스트된 방법 중 가장 좋은 보정 결과를 얻음.
Comprehensive benchmark covering several standard AI‑agent tasks (code generation, reasoning, planning) and multiple model families (GPT‑3.5, Claude, Llama‑2). → 포괄적인 벤치마크로, 여러 표준 AI 에이전트 작업(코드 생성, 추론, 계획)과 다양한 모델군(GPT‑3.5, Claude, Llama‑2)을 포함함.

방법론

Task Suite – 저자들은 다양한 벤치마크 작업 집합을 선택했습니다 (예: SAT 문제 해결, Python 함수 작성, 경로 계획). 각 작업은 명확한 이진 결과를 가집니다: 성공 또는 실패.
Confidence Elicitation – 각 작업 인스턴스마다 에이전트에게 성공 확률 (p \in [0,1])을 세 번 출력하도록 요청합니다:
- Pre‑execution – 입력을 보거나 계산을 수행하기 전에.
- Mid‑execution – 중간 솔루션(예: 초안 코드 스니펫)을 생성한 후.
- Post‑execution – 최종 답변을 만든 뒤 필요에 따라 자체 검증을 수행한 후.
확률은 모델에게 “0‑100 척도로 자신감을 평가하세요”라고 묻는 프롬프트 템플릿을 통해 얻습니다.
Calibration Metrics – 저자들은 표준 보정 곡선, Expected Calibration Error (ECE), 그리고 Brier scores를 계산하여 예측 확률을 실제 결과와 비교합니다.
Adversarial Prompting – 보정을 개선하기 위해 “버그 찾기” 프롬프트를 도입합니다:

“당신의 답변에 오류가 있을 수 있다고 가정하십시오; 숨겨진 버그가 존재할 가능성은 얼마나 됩니까?”

이는 모델이 보다 비판적인 입장을 취하도록 강제합니다.
Statistical Analysis – 대응 t-검정 및 부트스트랩 신뢰 구간을 사용해 사전, 중간, 사후 실행 자신감 간 차이가 통계적으로 유의한지 평가합니다.

결과 및 발견

체계적인 과신 – 모든 모델에서 평균 예측 성공률은 0.58였으며 실제 성공률은 0.34였고, ECE는 0.21이었습니다. 가장 극단적인 경우: 모델이 **22 %**만 성공했지만 77 % 성공 확률을 보고했습니다.
사전 실행이 사후 실행보다 우수 – 9개 작업군 중 7개에서 사전 실행 신뢰 점수가 성공과 실패를 구분하는 Area‑Under‑Curve (AUC) 값을 사후 실행 점수보다 높게 나타냈습니다(평균 AUC: 0.71 대 0.66). 이점은 작지만 일관적이었습니다.
대립 프롬프트가 보정 개선 – 버그 탐지 프롬프트가 ECE를 약 30 % 감소시켰으며(0.21에서 0.15로), Brier 점수도 낮아져 신뢰와 현실 사이의 정렬이 더 촘촘해졌음을 나타냈습니다.
모델 크기가 중요하지만 선형적이지 않음 – 더 큰 모델이 약간 더 잘 보정되는 경향이 있었지만, 가장 큰 모델(GPT‑4 수준)도 눈에 띄는 과신을 보였습니다.
중간 실행 점수는 잡음이 많음 – 에이전트가 부분적인 해결책만 보게 되므로 신뢰도가 크게 변동하여 예측력이 거의 없었습니다.

실용적 함의

Risk‑Aware Deployment – 자율 에이전트(예: 코드 어시스턴트, 플래닝 봇)를 구축하는 개발자는 기본적인 원시 신뢰도 점수를 그대로 신뢰해서는 안 된다. 보정된 불확실성 추정치를 도입하면 프로덕션에서 비용이 많이 드는 실패를 방지할 수 있다.
Safety Nets & Human‑in‑the‑Loop – 보정된 신뢰도가 안전 임계값 이하로 떨어지거나 적대적인 “버그 탐지” 신뢰도가 급증할 때 시스템이 인간 검토를 트리거할 수 있다.
Prompt Engineering for Better Self‑Assessment – 신뢰도 질의를 오류 탐지 작업으로 재구성하는 것은 추가 학습 없이도 더 신뢰할 수 있는 자기 평가를 얻을 수 있는 저비용, 모델에 독립적인 방법이다.
Benchmarking Standards – 논문의 방법론은 향후 LLM 기반 에이전트를 위한 표준 테스트 스위트가 될 수 있으며, 커뮤니티가 성능과 보정된 불확실성을 모두 보고하도록 장려한다.
Resource Allocation – 사전 실행 신뢰도가 이미 유용한 구분을 제공하므로, 개발자는 저비용 신뢰도 검사를 기반으로 컴퓨팅 자원을 할당할지(예: 더 비용이 많이 드는 검증 단계 실행) 초기 단계에서 결정할 수 있다.

제한 사항 및 향후 연구

제한 사항

작업 범위 – 연구는 비교적 짧고 명확히 정의된 작업에 집중했으며, 결과가 개방형 생성(예: 장문 작성)에 어떻게 일반화되는지는 불분명합니다.
단일 샷 프롬프트 – 몇 가지 프롬프트 템플릿만 검토했으며, 보다 풍부한 프롬프트 전략이나 몇 샷 시연이 보정에 영향을 줄 수 있습니다.
모델 다양성 – 여러 인기 있는 LLM 계열을 평가했지만, 최신 멀티모달 또는 지시 튜닝 모델은 포함되지 않았습니다.
동적 환경 – 변화하는 환경과 상호작용하는 실시간 에이전트(예: 로봇)는 다른 불확실성 동역학을 보일 수 있습니다.

향후 방향

불확실성 보정을 학습 목표에 통합한다.
프레임워크를 다단계 계획 수평선으로 확장한다.
**과신을 더욱 줄이기 위해 앙상블 또는 베이지안 접근법을 탐색한다.

저자

Jean Kaddour
Srijan Patel
Gbètondji Dovonon
Leo Richter
Pasquale Minervini
Matt J. Kusner

논문 정보

항목	세부 사항
arXiv ID	`2602.06948v1`
Categories	`cs.AI`, `cs.LG`
Published	2026년 2월 6일
PDF	PDF 다운로드

[Paper] Agentic 불확실성이 Agentic 과신을 드러낸다

개요

주요 기여

방법론

결과 및 발견

실용적 함의

제한 사항 및 향후 연구

제한 사항

향후 방향

저자

논문 정보

관련 글

에이전트 연결성 사이의 누락된 계층과 진정한 협업

FunctionGemma 파인튜닝 가이드

Gemini 3와 실제 세계 에이전트 예시

Gemini 3와 함께하는 실제 에이전트 사례