Anthropic, 사이버 방어 기능을 갖춘 가장 강력한 AI ‘Claude Fable 5’ 출시

발행: (2026년 6월 10일 PM 04:37 GMT+9)
8 분 소요

출처: The Hacker News

Anthropic은 6월 9일에 Claude Fable 5[https://www.anthropic.com/news/claude-fable-5-mythos-5]를 공개했으며, 이는 지금까지 만든 모델 중 가장 강력한 모델을 일반에 제공한 것이다. 동시에 특이한 방식을 택했다. 하나의 모델을 두 개의 제품으로 나눠 제공했는데, 이는 성능 차이가 아니라 안전 분류기 레이어에 따라 구분된 것이다.

Fable 5는 일반 사용자에게 공개된다. 사이버 보안 방어 장치를 해제한 동일한 기반 모델인 Claude Mythos 5는 사이버 방어자와 핵심 인프라 운영자를 대상으로 제한된 그룹에만 제공된다.

Anthropic은 Mythos 5를 “세계에서 가장 강력한 사이버 보안 모델”이라고 부른다.

실제 차이는 다음과 같다. Fable 5는 사이버, 생물학, 화학, 디스틸레이션 관련 요청이 감지되면 더 약한 Claude Opus 4.8으로 라우팅한다. 반면 Mythos 5는 사이버 기능을 검증된 사용자에게 그대로 제공한다. 두 모델 모두 입력 토큰 100만 개당 $10, 출력 토큰 100만 개당 $50의 비용이며, 이는 이전 Mythos Preview 가격의 절반 이하이다. Fable 5는 현재 Claude API를 통해 이용 가능하다.

Fable 5는 Pro, Max, Team, 그리고 좌석 기반 Enterprise 플랜에 6월 22일까지 추가 비용 없이 포함되며, 이후에는 사용량 크레딧으로 전환된다.

Fable 5의 사이버 분류기 작동 방식

Mythos‑계열 모델은 소프트웨어 취약점을 찾아내고 악용하는 능력이 뛰어나, Anthropic 입장에서는 해당 능력을 통제 없이 일반에 제공하면 공격자에게 큰 이득을 줄 수 있다. 이를 방지하기 위해 분류기[https://www.anthropic.com/news/claude-fable-5-mythos-5]라는 별도의 AI 시스템을 도입했다. 분류기는 오용 및 탈옥 시도를 감시한다. 요청이 분류기에 걸리면 Fable 5는 거부하지 않고, 응답을 Opus 4.8에 넘겨주며 사용자에게 전달이 이루어졌다고 알린다. 감지된 카테고리 중 디스틸레이션은 특이한데, 이는 모델의 능력을 추출해 경쟁 모델을 학습시키는 행위이며, Anthropic은 이러한 능력 유출을 방지하기 위해 차단한다.

사이버 보안 분류기는 가장 포괄적인 분류기다. Anthropic은 이를 단순히 익스플로잇 개발을 차단하는 수준을 넘어, 정찰, 탐색, 횡 이동, 실제 공격을 구성하는 에이전트 단계 등 모든 공격적 사이버 작업을 차단하도록 설계했다.

내부 평가에서 Fable 5를 “차단” 모드로 실행했을 때(우회 시도 없이) 분류기들은 모델이 해당 작업을 진행하는 것을 완전히 차단했다. 외부 파트너 역시 Fable 5가 사이버 공격 계획, 익스플로잇 개발, 방어 회피와 관련된 단일 요청에 대해 전혀 유해한 응답을 제공하지 않았으며, 30가지 공개 탈옥 기법을 모두 견뎌냈다고 보고했다.

대가로 발생하는 것은 오탐이다. Anthropic은 빠른 출시를 위해 안전 장치를 보수적으로 조정했기 때문에 가끔 무해한 요청도 차단한다. 회사에 따르면 전체 세션 중 5% 미만에서만 차단(또는 백업) 현상이 발생한다. 즉 95% 이상에서는 Fable 5가 사이버 제한이 없는 Mythos 5와 동일하게 동작한다. 이 수치는 모든 차단(진짜 차단 포함)을 포함한 비율이며, 오탐 비율 자체를 별도로 측정한 것은 아니다. Anthropic은 출시 이후 안전 장치를 좁혀 오탐을 줄일 계획이라고 밝혔다.

견고성 측면에서 구체적인 수치도 있다. 외부 버그 바운티 프로그램이 1,000시간 이상 진행됐지만 보편적인 탈옥, 프롬프트, 혹은 안전 장치를 일괄적으로 우회하는 방법은 발견되지 않았다. 외부 레드팀도 장기 에이전트 작업에서 탈옥을 찾지 못했으며, 단 하나의 예외는 영국 AI Security Institute가 짧은 초기 테스트 기간 동안 보편적인 탈옥에 근접한 진전을 보였다는 점이다. Anthropic은 보편적인 탈옥을 완전히 막는 것은 사실상 불가능하다고 인정하면서, 남은 탈옥 시도는 규모를 키우기 전에 충분히 느리고 비용이 많이 들도록 만드는 것이 목표라고 밝혔다.

왜 이 능력이 위협이 되는가

Anthropic이 이 모델을 신중히 다뤄야 한다는 주장은 4월에 발표한 Claude Mythos Preview[https://thehackernews.com/2026/04/anthropics-claude-mythos-finds.html]와 Project Glasswing[https://www.anthropic.com/glasswing]을 통해 이미 제시되었다. Anthropic 레드팀이 작성한 기술 보고서[https://red.anthropic.com/2026/mythos-preview/]가 핵심 읽을거리다.

테스트 과정에서 Mythos Preview는 모든 주요 운영 체제와 주요 웹 브라우저에 대해 제로데이 취약점을 식별하고 악용했다. 가장 오래된 버그는 보안에 강한 것으로 알려진 OpenBSD의 27년 된 결함이었다. 또한 17년 된 버그(CVE‑2026‑4747)를 이용해 FreeBSD NFS 서버에 대한 원격 코드 실행 익스플로잇을 자동으로 작성했다.

Anthropic은 이를 “인터넷 어디서든 인증되지 않은 공격자가 완전한 루트 권한을 획득할 수 있다”고 설명했으며, NVD는 스택 오버플로 자체는 클라이언트 인증을 요구하지 않지만, kgssapi.ko 모듈이 로드된 상태에서 NFS 서버에 패킷을 보낼 수 있는 공격자는 커널 코드 실행이 가능하다고 기술한다.

Anthropic에 따르면 이러한

0 조회
Back to Blog

관련 글

더 보기 »