[논문] LLM은 주사위 굴리기에서 얼마나 신뢰할 수 있을까?

발행: 5일 전 (2026년 6월 6일 AM 02:59 GMT+9)

3 분 소요

원문: arXiv

출처: arXiv - 2606.07515v1

개요

우리는 대규모 언어 모델(Large Language Models, LLM)의 확률적 추론 능력을 이산 확률 문제에 대한 통제된 벤치마크 연구를 통해 조사한다. 표준 연습문제 집합과 직관에 반하는 연습문제 집합, 두 개의 데이터셋을 각각 구축했으며 이는 휴리스틱 추론을 유발하도록 설계되었다. 8개의 최신 모델을 체인‑오브‑생각(Chain‑of‑Thought) 프롬프트 사용 여부에 따라 테스트하였다. 모델은 표준 문제에서 평균 정확도 0.96을 기록했지만, 직관에 반하는 문제에서는 0.59에 불과했다. 또한 토큰 편향에 대한 실증적 증거를 제시한다: 정형화된 표현을 변형된 형태로 바꾸면 성능이 20% 이상 감소한다. 프롬프트에 오해를 일으키는 제안을 삽입하면 성능이 최대 34%까지 떨어지며, 이를 면역하는 모델은 없었다. 종합하면, 현재 LLM은 고급 수학 문제에서는 성공을 거두고 있지만, 아직 진정한 확률적 추론자는 아니라는 결론을 얻을 수 있다.

핵심 기여

이 논문은 다음 분야의 연구를 제시한다:

cs.CL
cs.AI
cs.HC
math.PR

방법론

자세한 방법론은 전체 논문을 참고하시기 바랍니다.

실용적 시사점

본 연구는 cs.CL 분야의 발전에 기여한다.

저자

Luca Avena
Gianmarco Bet
Bernardo Busoni

논문 정보

arXiv ID: 2606.07515v1
분류: cs.CL, cs.AI, cs.HC, math.PR
발표일: 2026년 6월 5일
PDF: PDF 다운로드

[논문] LLM은 주사위 굴리기에서 얼마나 신뢰할 수 있을까?

개요

핵심 기여

방법론

실용적 시사점

저자

논문 정보

관련 글

[논문] MemDreamer: 계층 그래프 메모리와 에이전트형 검색으로 긴 비디오 이해의 지각·추론 분리

[논문] 다중어 표현 분류: 감독 학습 vs 시연 기반 인컨텍스트 학습

[논문] TEVI: 희소 오토인코더를 활용한 텍스트 조건부 시각 표현 편집으로 비전‑언어 정렬 개선

[논문] 마스크된 이점: LLM에서 지역 언어를 통한 문화 지식 접근 탐구