Claude Fable 5 vs GPT‑5.5 vs Gemini 3.1 Pro: 지금 누가 앞서?

발행: (2026년 6월 10일 PM 04:06 GMT+9)
10 분 소요
원문: Dev.to

Source: Dev.to

SWE‑Bench Pro: Claude Fable 5 80.3 %, GPT‑5.5 58.6 %, Gemini 3.1 Pro 54.2

  • Gemini는 백만 토큰당 2 달러로 가장 저렴하고, Fable 5는 10 달러지만 GPT‑5.5 Pro보다 저렴합니다.
  • Anthropic만이 2단계 안전 설계를 제공: 위험한 프롬프트는 거부가 아니라 Opus 4.8 답변을 반환합니다.
  • 내 스택: 에이전트 코딩은 Fable 5, 저렴한 대량 처리에는 Gemini, 생태계가 중요한 경우는 GPT‑5.5.

프론트엔드는 다시 세 개의 플래그십 모델이 경쟁하고 있으며, 그 중 하나가 라인을 옮겼습니다. Claude Fable 5는 2026년 6월 9일에 공개된 최초의 퍼블릭 Mythos‑class 모델이며, 이제 질문은 “Opus를 이기는가?”가 아니라 “GPT‑5.5와 Gemini 3.1 Pro를 이기는가?”입니다. 나는 공개된 수치, 가격표, 그리고 내 자체 프로덕션 트래픽 하루치를 가지고 세 모델이 실제로 어떻게 비교되는지 살펴보았습니다.

SWE‑Bench Pro 결과

SWE‑Bench Pro는 현재 가장 깔끔한 벤더 간 측정 지표로, 실제 GitHub 엔지니어링 작업을 평가합니다(퍼즐이 아님). 6월 결과는 다음과 같습니다.

  • Claude Fable 5: 80.3 %
  • GPT‑5.5: 58.6 %
  • Gemini 3.1 Pro: 54.2 %

비교를 위해 Anthropic의 이전 최고점인 Opus 4.8은 69.2 %를 기록했습니다. Fable 5가 GPT‑5.5보다 앞선 차이는 21.7 포인트이며, 이는 GPT‑5.5와 Gemini 사이의 격차보다 큽니다.

FrontierCode (Cognition) 결과

Cognition의 FrontierCode 벤치마크도 동일한 흐름을 보여줍니다. 이 벤치마크는 고난이도 프로덕션 수준 작업을 고의적으로 사용하며, Fable 5는 29.3 %를 기록한 반면 GPT‑5.5는 5.7 %에 머물렀습니다. 실제 시니어 엔지니어링에 가장 근접한 작업에서 5배 차이는 올해 본 가장 비대칭적인 프론트엔드 결과라 할 수 있습니다.

두 가지 솔직한 전제

  1. 벤더가 공개한 벤치마크는 언제나 해당 벤더에 유리합니다.
  2. GPT‑5.5는 실제 승리를 기록하고 있습니다. 예를 들어 5월에 Opus 4.8을 제치고 Terminal‑Bench에서 1위를 차지했으며, 아직 Fable 5의 Terminal‑Bench 수치는 공개되지 않았습니다. 터미널 중심 에이전트 워크플로우는 아직 GPT‑5.5가 우세할 가능성이 있습니다. 나는 이러한 출시들을 지속적으로 추적하고 있으며, “Claude Opus 4.8 Is Here: Everything That Changed”에서 보듯 Anthropic은 승리보다 패배를 덜 부각시키는 경향이 있습니다.

코딩 외 영역

Fable 5는 비전 분야에서도 최첨단을 주장합니다(포켓몬 FireRed를 비전 전용 하네스로 이겨 스크린샷만으로 앱 소스를 재구성). 또한 문서·재무 추론 스위트에서도 최고 점수를 받았습니다. Google은 여전히 저렴한 장기 컨텍스트 비용을 장악하고 있고, OpenAI는 가장 넓은 소비자용 인터페이스를 제공합니다. 하지만 “프로덕션에서 코드를 실제로 작성하는” 벤치마크 축에서는 2026년 6월 현재 3자 동점이 아닙니다.

토큰당 비용 (2026‑06‑09 가격표 기준)

모델입력 비용 (백만 토큰당 $)
Claude Fable 510
Claude Opus 4.85
GPT‑5.57
GPT‑5.5 Pro30
Gemini 3.1 Pro (200K 이하 컨텍스트)2
Gemini 3.1 Pro (200K 초과 컨텍스트)2

세 가지 전략이 한 표에 정리됩니다. Google은 대량 시장을 공략하고 있으며, 2 달러 입력 비용은 타 모델이 따라올 수 없습니다(배치 모드에서는 절반으로 감소). OpenAI는 GPT‑5.5로 중간을 차지하고, GPT‑5.5 Pro는 높은 프리미엄을 부과합니다. Anthropic은 Fable 5를 Opus 4.8보다 두 배 비싸게 책정했지만, OpenAI 최고 등급보다 훨씬 저렴합니다(입력 비용은 3배, 출력 비용은 3.6배 차이).

따라서 “Fable 5는 비싸다”는 말은 절반만 맞습니다. GPT‑5.5 표준 대비하면 입력 비용이 두 배이지만, OpenAI가 최고의 모델로 포지셔닝한 GPT‑5.5 Pro 대비하면 Fable 5가 예산 친화적이며, 코딩 성능도 더 좋습니다.

캐싱 효과

세 모델 모두 반복 프리픽스에 대해 큰 할인을 제공합니다. GPT‑5.5는 캐시된 입력이 0.50 달러로 떨어지고, Gemini와 Claude는 기본 입력의 약 1/10 수준으로 캐시 읽기를 제공합니다. 따라서 시스템 프롬프트가 고정된 에이전트 루프에서는 실제 입력 비용이 수렴합니다. 그러나 출력 비용은 수렴하지 않으며, 출력이 바로 에이전트 작업의 비용을 결정합니다. 여기서 Fable 5 vs Opus 4.8 비교에서 얻은 “한 번에 작업을 해결하는 모델이 세 번 시도해야 하는 저렴한 모델보다 비용 효율이 높다”는 원칙이 벤더 간에도 적용됩니다.

독특한 아키텍처 차별점

다른 어느 모델도 따라하지 못한 점: Fable 5는 위험 요청을 단순히 거부하지 않고 모델을 교체합니다. 분류 시스템이 모든 대화를 스크리닝하고, 사이버 보안 공격, 이중용 생물·화학, 혹은 능력 증류와 관련된 요청은 Opus 4.8이 답변을 생성합니다. 전체 세션의 5 % 미만만이 이 절차를 트리거합니다. 반면 GPT‑5.5와 Gemini 3.1 Pro는 “답변하거나 거부”라는 이진 구조입니다.

개발자 입장에서의 장단점

  • 장점: 막다른 길이 줄어듭니다. 보안에 민감한 질문이 GPT에서는 거부될 수 있지만, Fable 5는 Opus‑grade 답변을 제공합니다.
  • 단점: 일관성 관리가 필요합니다. 어떤 모델이 답변했는지 정확히 알아야 하는 제품이라면, 조용히 핸드오프되는 상황을 처리해야 합니다. 또한 보수적인 튜닝으로 인해 무해한 요청도 다운그레이드될 수 있습니다. Anthropic은 이러한 false positive를 줄이는 것이 현재 핵심 과제라고 밝혔습니다.

투명한 테스트

테스트 과정이 비정상적으로 공개되었습니다: 1,000시간 이상의 버그 바운티 프로그램에서 보편적인 jailbreak는 발견되지 않았고, 사이버 작업에 대한 30가지 공개 jailbreak 기법 모두 무해하게 처리되었습니다. 외부 레드팀은 측정 가능한 가장 강력한 사이버 방어 체계를 보고했습니다. 데이터 사용 조건(30일 보관, 학습용 비사용, 인간 접근 로그) 역시 현재 세 벤더 중 가장 강력한 프라이버시 스토리를 제공합니다.

제한된 기능 보류

경쟁사 어느 쪽도 보여주지 않은 기능이 하나 있습니다. 제한되지 않은 Mythos 5(오직 검증된 Project Glasswing 파트너에게만 제공)는 ExploitBench에서 78 %를 기록했으며, Opus 4.8은 40 %에 머물렀습니다. Anthropic은 이 공격‑보안 역량을 구축·측정한 뒤, 15개국 이상에 걸친 약

0 조회
Back to Blog

관련 글

더 보기 »