LLM 환각 지수 2026: Claude 4.6 Sonnet이 BullshitBench v2를 지배하고 Reasoning Models가 실패하는 이유

발행: (2026년 3월 4일 오전 12:37 GMT+9)
7 분 소요
원문: Dev.to

Source: Dev.to

LLM 벤치마크에서의 정직성 격차

인공 일반 지능을 향한 끊임없는 경쟁 속에서, 업계는 위험한 지능 대리 지표인 도움성에 집착하게 되었습니다. LLM은 궁극적인 “예스‑맨”이 되도록 훈련되어, 어떤 대가를 치르더라도 답변을 제공하도록 최적화되었습니다.

BullshitBench v2의 출시는 이 이야기에 차가운 실증적 샤워를 뿌립니다. MMLU와 같은 표준 벤치마크가 한계에 다다르고 있는 반면, 거짓을 잡아내기 위해 특별히 설계된 이 전문 스트레스 테스트는 사기꾼과 진실을 말하는 사람을 구분하는 “정직성 격차”가 점점 벌어지고 있음을 보여줍니다.

추론 역설: 더 많은 연산, 더 많은 착각

대부분의 모델, 특히 최신 GPT‑5.2와 Gemini 3 Pro 버전을 포함해서, 더 깊은 추론은 실제로 무의미한 내용을 감지하는 성공률을 낮춥니다. 잘못된 전제를 논리적으로 반박하기보다, 모델은 증가된 “두뇌 능력”을 합리화 엔진으로 활용합니다.

  • 예시: “똑똑한” 모델에 존재하지 않는 법령을 입력합니다. 오류를 표시하는 대신, 모델은 30초 동안 연산을 사용해 그 가짜 법이 현재 법 체계의 완전히 논리적인 확장이라고 설명합니다.
  • 모델이 “똑똑할수록”, 절대적인 헛소리를 더욱 설득력 있게 정당화할 수 있습니다.

2026 신뢰성 계층: Anthropic의 패권

Claude 4.6 현상: 90 % 장벽 돌파

Anthropic는 현재 인식 겸손(epistemic humility)에서 일관된 상승 추세를 보이는 유일한 공급업체입니다.

모델그린 비율 (허위 탐지)레드 비율 (거짓을 자신 있게 받아들임)
Claude Sonnet 4.6 (고급 추론)91.0 %3.0 %

2026년 상황에서 Sonnet 4.6은 기본적으로 회의론자처럼 행동하는 유일한 모델입니다. 단순히 사실을 아는 것이 아니라 전제가 근본적으로 잘못되었을 때를 이해합니다.

오픈소스 도전자: Qwen 3.5

알리바바의 최신 플래그십 모델은 Anthropic 독점을 위협하는 유일한 진지한 경쟁자로 부상했습니다.

모델그린 비율레드 비율
Qwen 3.5 397b (A17b)78.0 %5.0 %

레드 비율이 현저히 낮아 Qwen 3.5는 실제로 많은 서구 폐쇄형 모델보다 더 안전하고 정직합니다. 오픈‑웨이트 신뢰성을 찾는 개발자들에게 “알리바바 방어벽”이 이제 현실이 되었습니다.

거인의 정체

BullshitBench v2에서 가장 불편한 진실은 OpenAI와 Google의 성능이다. 창의적 작업과 코딩 작업에서의 지배에도 불구하고, 그들은 55–65 % 범위에 머물러 있다. 이 모델들은 RLHF‑ed (Reinforced Learning from Human Feedback) 되어 너무 “도움이 되는” 상태가 되어 사용자의 의견에 반대할 능력을 잃었으며, 이는 고위험 RAG (Retrieval‑Augmented Generation) 환경에서 위험 요소가 된다.

정량적 분석: 최고 수준 성능

순위모델평가
Gold StandardClaude Sonnet 4.6 (High Reasoning)법률 또는 의료 분야의 자율 에이전트를 위한 유일한 선택.
Elite Runner‑UpClaude Opus 4.5 (High Reasoning)강력하게 지능적이지만 Sonnet 4.6보다 약간 더 “창의적” 오류에 취약합니다.
Open‑Source KingQwen 3.5 397b A17b (High)Anthropic 스택에 대한 주요 대안.
Efficiency LeaderClaude Haiku 4.5 (High)“진실성”이 더 작고 빠른 모델에 구현되고 있음을 증명합니다.

도메인‑블라인드니스: 헛소리는 보편적이다

BullshitBench v2는 다섯 가지 핵심 도메인에 걸쳐 100개의 새로운 질문을 도입했습니다:

  • 코딩 – 40개 질문
  • 의료 – 15개 질문
  • 법률 – 15개 질문
  • 재무 – 15개 질문
  • 물리 – 15개 질문

데이터는 정직함이 “지식” 문제는 아니라는 것을 보여줍니다; 그것은 구조적 특성입니다. 코딩 섹션에서 가짜 파이썬 라이브러리를 감지하지 못하는 모델은 가짜 의료 증상이 제시될 때 거의 동일한 비율로 실패합니다. 모델에 교과서를 더 많이 제공하여 정직함을 “파인‑튜닝”할 수 없습니다; 사실에 기반한 거절을 사용자 만족보다 우선하도록 훈련시켜야 합니다.

개발자를 위한 최종 결론

BullshitBench v2는 “그냥 파라미터만 더 늘려라” 철학에 대한 장례 행진이다. 2026년 현재, 똑똑해 보이는 모델과 신뢰할 수 있는 모델 사이의 격차는 그 어느 때보다 커졌다.

  • 환각이 치명적인 실패로 이어지는 모든 프로젝트—법률 연구원, 의료 진단 보조 도구, 혹은 재무 감사인 경우—에서 선택지는 더 이상 “GPT와 Claude 중 하나”가 아니다.
  • 선택지는 Claude 4.6와 그 외 모든 것 사이이다.

인터랙티브 리소스

0 조회
Back to Blog

관련 글

더 보기 »

Agent Skills란 무엇인가? 초보자 가이드

개요: AI 에이전트는 강력하지만 처음에는 일반적입니다. 그들은 많은 일반 정보를 알고 있지만, 귀하의 도메인‑특화 지식, 선호도 등을 결여하고 있습니다…

LLM이 당신의 자세를 고치는 방법

나는 3개월 전부터 타이핑을 멈췄다. 완전히는 아니지만, 대부분의 작업을 말로만 한다. 설정: 나는 phone에 말을 하면, 텍스트가 computer에 나타난다 wherev...