[논문] LLM은 주사위 굴리기에서 얼마나 신뢰할 수 있을까?
개요
우리는 대규모 언어 모델(Large Language Models, LLM)의 확률적 추론 능력을 이산 확률 문제에 대한 통제된 벤치마크 연구를 통해 조사한다. 표준 연습문제 집합과 직관에 반하는 연습문제 집합, 두 개의 데이터셋을 각각 구축했으며 이는 휴리스틱 추론을 유발하도록 설계되었다. 8개의 최신 모델을 체인‑오브‑생각(Chain‑of‑Thought) 프롬프트 사용 여부에 따라 테스트하였다. 모델은 표준 문제에서 평균 정확도 0.96을 기록했지만, 직관에 반하는 문제에서는 0.59에 불과했다. 또한 토큰 편향에 대한 실증적 증거를 제시한다: 정형화된 표현을 변형된 형태로 바꾸면 성능이 20% 이상 감소한다. 프롬프트에 오해를 일으키는 제안을 삽입하면 성능이 최대 34%까지 떨어지며, 이를 면역하는 모델은 없었다. 종합하면, 현재 LLM은 고급 수학 문제에서는 성공을 거두고 있지만, 아직 진정한 확률적 추론자는 아니라는 결론을 얻을 수 있다.
핵심 기여
이 논문은 다음 분야의 연구를 제시한다:
- cs.CL
- cs.AI
- cs.HC
- math.PR
방법론
자세한 방법론은 전체 논문을 참고하시기 바랍니다.
실용적 시사점
본 연구는 cs.CL 분야의 발전에 기여한다.
저자
- Luca Avena
- Gianmarco Bet
- Bernardo Busoni
논문 정보
- arXiv ID: 2606.07515v1
- 분류: cs.CL, cs.AI, cs.HC, math.PR
- 발표일: 2026년 6월 5일
- PDF: PDF 다운로드