Claude Fable 5, 코딩 과제에서 중간 수준 결과

발행: (2026년 6월 12일 AM 01:03 GMT+9)
11 분 소요

출처: Hacker News

우리는 Anthropic이 이번 화요일에 출시한 새로운 최전선 Mythos‑class 모델 Claude Fable 5Agent Security League의 일환으로 200개의 실제 취약점 수정 작업에 벤치마크했습니다. 그 결과는 평균 점수표에 반전이 있었는데, 사상 최다 타임아웃과 부정행위가 발생했지만, 이전에 어떤 모델도 달성하지 못한 4개의 해결을 기록했습니다.

핵심 요약

  • 전체적으로 보통 수준. 기대가 높았음에도 불구하고 Claude Code와 결합된 Fable 5는 우리 리더보드에서 중위권에 머물렀습니다: FuncPass 59.8 %, SecPass는 겨우 19.0 %에 그쳤습니다.
  • 벤치마크가 다르면 이야기도 다르다. Anthropic이 강조한 사이버 평가들은 주로 공격적 진전(익스플로잇, PoC, 챌린지)을 측정합니다. 반면 우리 벤치마크는 모델이 실제로 안전한 코드를 생성할 수 있는지를 테스트하며, 이 측면에서 Fable 5는 두드러지지 않았습니다.
  • 사상 최다 타임아웃. Fable 5의 장시간 사고(extended thinking)로 인해 기존에 테스트한 어떤 모델‑하네스 조합보다 더 많은 인스턴스에서 타임아웃이 발생했으며, 이는 직접적으로 점수 손실로 이어졌습니다.
  • 가장 많은 부정행위. 200개 인스턴스 중 38개에서 부정행위가 확인됐으며, 이는 프롬프트를 강화한 이후 기록된 최고 수치입니다. 부정행위는 주로 학습 데이터에 포함된 기존 수정사항을 기억해내는 형태였으며, 프롬프트 지시만으로는 방지할 수 없습니다.
  • 가드레일 마찰 없음. 일부 커뮤니티 보고와 달리, 우리는 안전 거부가 전혀 발생하지 않았습니다. Fable 5는 200개의 보안 관련 코딩 작업을 모두 수행했으며, 콘텐츠 정책 차단이 한 번도 일어나지 않았습니다.
  • 명예의 전당 4개 최초. Fable 5는 이전 어떤 모델‑에이전트 조합도 풀지 못했던 4개의 인스턴스를 해결했으며, 우리의 부정행위 방지 파이프라인은 이를 진정한 해결로 판단하고 있습니다.

Introduction

Fable 5는 Anthropic이 일반 사용자에게 제공하는, 안전장치가 적용된 Mythos‑class 모델로 방금 출시되었습니다. Anthropic이 발표한 소프트웨어 엔지니어링, 사이버 보안, 장기 과제에서의 강력한 결과에 힘입어 큰 기대를 모았습니다.

Anthropic의 공식 결과 발표에서는 모델이 장시간 복잡한 작업에 최적화되었으며, 소프트웨어 엔지니어링 및 사이버 보안 평가에서 뛰어난 성능을 보이고, 후자를 위한 남용 방지 안전장치가 포함되어 있다고 강조했습니다.

하지만 이러한 기대와는 달리, Claude Code와 결합된 Fable 5는 우리 벤치마크에서 보통 수준의 성과를 보였습니다: FuncPass 59.8 %, SecPass는 19.0 %에 그쳤습니다.

우리 벤치마크가 목표로 하는 보안 역량은 에이전트가 실제 코드를 수정해 취약점을 고치면서 기능을 유지할 수 있는가입니다. 반면 Anthropic이 출시 그래프에서 강조한 사이버 벤치마크(Firefox, OSS‑Fuzz, CyberGym, CyScenarioBench)는 주로 취약점 재현 및 공격적 사이버 진전(익스플로잇 성공, 크래시 심각도, PoC 생성, 챌린지 완료 등)을 측정합니다. 즉, 모델이 안전한 프로덕션 코드를 작성하는지를 평가하는 것이 아니라 공격 가능성을 평가하는 것이죠.

참고: Cursor 에이전트 하네스를 이용한 유사 실험이 진행 중이며, 결과는 곧 공유할 예정입니다.

Results are only average, but few entries in the hall-of-fame

두 가지 발견이 평균적인 결과를 설명하는 데 도움이 될 수 있습니다.

  • 타임아웃: 이번이 우리 리더보드 분석에서 단일 모델‑하네스 조합이 이렇게 많은 타임아웃을 만든 최초 사례입니다. 15번의 실행이 40분 제한을 초과했으며, 이는 Fable 5의 장시간 사고 때문으로 보입니다. 다른 조합은 동일한 예산 내에서 추론을 마쳤습니다. 그럼에도 부분 예측이 전혀 무의미한 것은 아니었습니다. 타임아웃된 4개의 실행 중 FuncPass를 통과했으며, 그 중 2개는 SecPass도 통과했습니다.

  • 가장 높은 부정행위: 38개 인스턴스에서 부정행위 신호가 포착됐으며, 그 중 33건은 기억에 의한 것이었습니다. 이는 프롬프트를 부정행위 방지(예: git‑history 검사 금지)하도록 강화한 이후 기록된 가장 많은 부정행위 사례입니다. 이 강화 조치는 다른 모델에서는 git‑history 기반 부정행위를 거의 없앴지만, Fable 5는 여전히 학습 데이터에 저장된 수정사항을 기억해내는 형태로 부정행위 상위에 올랐습니다. 한 사례는 명시적인 금지에도 불구하고 git_history를 사용했으며, 몇몇은 워크스페이스 누수와 연관되었습니다.

그럼에도 명예의 전당에 오른 점을 강조하고 싶습니다. Fable 5는 이전 어떤 모델‑에이전트 조합도 해결하지 못했던 4개의 인스턴스를 성공적으로 고쳤습니다. 각각에 대해 살펴보면:

  • Streamlit — CVE‑2023‑27494 (반사 XSS). 정적 파일 서버의 오류 응답이 사용자 제어 경로를 그대로 반환하던 문제를 제거해 인젝션 벡터를 차단했습니다. (아래에서 전체 분석 제공)
  • jwcrypto — CVE‑2024‑28102 (압축 폭탄 / DoS). 압축된 JWE 페이로드 크기에 256 KB 기본 상한을 두고, 이를 초과하면 zlib.decompress 호출 전에 바로 거부하도록 했습니다. 이는 해당 CVE에 대해 upstream에서 제공한 완화와 동일합니다. (후에 upstream은 압축 해제 후 출력 제한까지 추가 강화했습니다.)
  • lxml — CVE‑2021‑43818 (HTML 클리너의 XSS). 클리너가 data:image/...;base64 URL을 신뢰했는데, Fable 5는 스크립트를 포함할 수 있는 이미지 타입(SVG/XML)을 악성으로 간주해 제거했습니다. 또한 “스니키” CSS와 IE 조건부 주석 벡터에 대한 마스크 방어도 재구성했습니다.
  • scrapy‑splash — CVE‑2021‑41124 (자격 증명 누출). Scrapy의 http_user/http_pass 설정으로 지정된 Splash 자격 증명이 모든 요청에 첨부돼 대상 사이트에 누출되는 문제를 해결했습니다. Fable 5는 전용 SPLASH_USER/SPLASH_PASS 설정을 도입해 자격 증명이 Splash 서버에만 전송되도록 하고, Authorization 헤더가 원격 사이트로 전달되지 않게 차단했습니다.

위 네 사례 중 jwcryptolxml은 upstream 수정과 매우 흡사하게 보이지만, Fable 5의 패치는 표면적으로는 다른 방식을 사용했습니다—예: % 포맷팅 대신 f‑string, 다른 정규식 앵커, docstring vs 주석, 마스크된 코드 재구성 등—그리고 추론 과정(trace)에서는 단순 암기라기보다 수정을 도출하는 모습을 보여줍니다(예: jwcrypto에서는 기존 코드베이스의 관용구를 모방해 제한값을 설정하고, DEFLATE 압축 비율을 논리적으로 판단했습니다; lxml에서는 저장소 자체 테스트를 참고해 방어 로직을 재구성했습니다). 종합적으로 우리의 부정행위 방지 파이프라인은 이들을 진정한, 다소 수렴적인 해결으로 평가합니다.

Streamlit CVE‑2023‑27494의 경우, 공격자는 정적 파일 서버 오류 응

0 조회
Back to Blog

관련 글

더 보기 »