Claude Fable 5: Anthropic, 안전한 버전의 Claude Mythos 출시
출처: Mashable Tech
Anthropic은 강력하지만 이전에 제한되었던 Mythos 모델의 공개 버전인 Claude Fable 5를 출시했습니다. 이 모델은 가장 위험한 기능이 잘못된 손에 넘어가지 않도록 설계된 새로운 안전 가드레일을 포함하고 있습니다. “일반 사용에 안전한” 모델과 함께, Anthropic은 신뢰할 수 있는 테스트 파트너에게는 안전 가드레일이 없는 Claude Mythos 5 버전도 제공했습니다.
올해 초, Anthropic은 고급 사이버 보안 기능을 갖춘 새로운 모델인 Claude Mythos의 제한된 출시를 발표했으며, 이는 Anthropic가 너무 위험하다고 판단해 공개를 보류한 모델 이었습니다.
Anthropic은 Fable 5가 지금까지 일반에 공개한 모델 중 가장 성능이 뛰어나며, 소프트웨어 엔지니어링, 지식 작업, 비전, 과학 연구 등 거의 모든 테스트 벤치마크에서 선두를 차지했다고 밝혔습니다. 작업이 복잡할수록 Fable 5가 이전 모델 및 경쟁 모델 대비 더 큰 우위를 보인다고 합니다.
추천 기사
Fable 5는 Claude Mythos 5와 동일한 기본 아키텍처를 공유합니다—사이버 보안 파트너와 Project Glasswing 을 통해 공유된 제한 버전—하지만 민감한 질의를 가로채어 Claude Opus 4.8 로 라우팅하는 분류기가 포함되어 있습니다. 제한 카테고리에는 사이버 보안, 생물학, 화학뿐 아니라 모델의 능력을 경쟁 시스템에 활용하려는 시도도 포함됩니다.
Anthropic에 따르면 세션의 5% 미만만이 포기(fallback) 상황을 트리거하지만, 시스템이 보수적으로 튜닝돼 있어 가끔 정상적인 요청도 플래그될 수 있다고 합니다.
Mashable Light Speed
Claude Fable 5 사용 방법
Fable 5는 오늘부터 모든 Claude 플랜에서 이용 가능하며, API에서는 모델 문자열 claude-fable-5 로 호출할 수 있습니다. 가격은 입력 토큰 100만 개당 $10, 출력 토큰 100만 개당 $50이며, 이는 Claude Mythos Preview 비용의 절반 이하입니다. 구독 플랜 사용자는 6월 22일까지 추가 비용 없이 이용할 수 있고, 이후에는 사용 크레딧이 필요합니다.
벤치마크
에이전트 기반 코딩 평가에서 Anthropic에 따르면 Fable 5는 GPT‑5.5와 Claude Opus 4.8을 크게 앞섰으며, 일부 핵심 벤치마크에서는 Claude Mythos조차 능가했습니다.

출처: Anthropic
Anthropic은 블로그 포스트에서, 초기 접근 권한을 받은 핀테크 기업 Stripe가 Fable 5를 사용해 5천만 라인 규모의 Ruby 코드베이스 전체를 하루 만에 마이그레이션했으며, 이는 전체 엔지니어링 팀이 두 달 이상 걸릴 작업이라고 추정했다고 전했습니다.
Fable 5, Mythos 5 및 안전성
이 안전성 이야기는 상당히 복잡합니다. Anthropic은 몇 달 동안 Mythos 급 모델이 일반 공개에 너무 위험하다고 경고했습니다. 최근 5월에도 회사는 충분한 안전 장치가 아직 마련되지 않았다고 공개적으로 인정했습니다(이전 Mashable 보도 인용).
Fable 5는 그 문제에 대한 답변이지만, 회사 자체 공개에 따르면 해결책은 아직 진행 중이라고 합니다. 외부 버그 바운티 프로그램은 1,000시간 이상 테스트했지만 보편적인 탈옥(jailbreak)을 발견하지 못했으며, 영국 AI Safety Institute는 짧은 초기 기간 동안 탈옥 가능성을 탐색했습니다. Anthropic은 이를 “수용 가능한 위험”이라고 평가했지만, 다른 의견도 존재합니다.
**Fable 5 시스템 카드**에 따르면, 이 모델은 Claude Opus 4.8 및 기타 최신 모델과 유사한 수준의 비정렬 행동(환각, 부정직, 아첨 등)을 보입니다.