Anthropic의 너무 무서워 출시를 미뤘던 AI 해킹 도구가 실제로 나오다 — 다소
Source: Android Authority
Calvin Wankhede / Android Authority
TL;DR
- Anthropic은 지금까지 만든 가장 강력한 모델 두 개, Claude Fable 5와 Mythos 5를 출시한다.
- Mythos 5는 보안 연구원들이 취약점을 발견하도록 설계된 반면, 공개용 Fable 5는 해킹을 방지하는 안전장치를 갖추고 있다.
- 두 모델 모두 매우 복잡한 분석 작업을 수행할 수 있는 고급 능력을 보여준다.
아마도 지금까지 보신 AI 데모 중 하나는 “그냥 좋은 게 아니라, 무섭게 좋다”는 느낌을 주었을 겁니다. AI가 예술가의 일자리를 빼앗거나 수학적 미스터리의 새로운 증명을 만들어내는 등, AI 기반 시스템이 점점 더 불편할 정도로 강력한 결과를 내놓는 새로운 사례들을 계속해서 목격하고 있습니다. 최근에는 Anthropic이 최신 Claude Mythos 모델을 공개하는 데 대해 우려를 표명했는데, 이 모델이 소프트웨어 취약점을 찾는 데 너무 뛰어나기 때문입니다. 오늘은 Anthropic이 바로 그 문제를 해결하고자 합니다.
자동 버그 탐지는 새로운 것이 아니며, 컴퓨터 과학자들은 수년간 퍼저(fuzzer)와 같은 도구를 사용해 무작위 입력을 소프트웨어에 쏟아넣어 결함을 유발하려고 해왔습니다. 하지만 AI는 훨씬 더 강력한 위협을 의미합니다. Mythos와 같은 취약점 탐지기가 진화함에 따라, 그 제작자들은 가장 강력한 모델을 공유하는 데 대해 자연스럽게 조심스러워졌습니다.
Anthropic은 기술을 그대로 두고 방치하기보다, 오늘 타협안을 공유했습니다. 즉, Mythos를 책임감 있고 안전하게 배포하는 방법을 제시한 것입니다. 핵심은 두 개의 별도 모델로 나누는 것입니다: Claude Fable 5와 Claude Mythos 5.
Claude Fable 5는 일반 대중을 위한 모델이며, 분석 작업을 수행하기 위한 완전한 기능을 갖추고 있습니다. 이는 단순히 소프트웨어 취약점을 찾는 것에 국한되지 않고, 코딩을 돕고, 강력한 비전 분석 도구를 제공하며, 시간이 지나면서 내부 전략까지 개발할 수 있습니다. Anthropic에 따르면 “Fable 5의 능력은 우리가 일반에 공개한 어떤 모델보다도 뛰어나다”고 합니다.
하지만 Anthropic은 몇 가지 조건을 붙였습니다. Fable 5는 최신 제로데이 익스플로잇을 찾으려는 시도에 저항하도록 설계되어 있어, 악의적인 행위자가 이를 악용해 전 세계 컴퓨터 시스템에 피해를 주는 것을 방지합니다. 사용자가 이러한 제한을 넘어선 요청을 하면, 모델은 대신 Claude Opus 4.8으로 전환됩니다.
그 다음이 Mythos 5인데, 내부적으로는 Fable 5와 동일하지만 많은 안전장치가 빠져 있습니다. 핵심은 Anthropic이 이 모델을 매우 제한적으로만 배포한다는 점입니다. 신뢰할 수 있는 사이버 보안 커뮤니티 구성원에게만 사용을 허가하고, 악당보다 앞서 나가기 위해 버그를 찾아 수정하는 데 활용하도록 합니다. 이렇게 함으로써 Mythos 5가 악용되는 위험을 최소화하려는 것이죠.
Anthropic은 사용자가 Fable 5를 어떻게 활용하려는지 인식하려는 일련의 “분류기(classifier)”를 개발했습니다. 이 분류기들은 단순히 해킹을 차단하는 것에 그치지 않고, 위험한 화학 물질이나 생물학적 화합물을 합성하려는 시도, 혹은 자체 Fable 5를 만들기 위해 내부 정보를 추출하려는 시도까지 차단하도록 설계되었습니다.
이러한 조치들이 공개된 Mythos 기반 릴리스를 안전하게 운영할 수 있게 해 주길 바랍니다. 왜냐하면 많은 사람들이 매우 열심히 이 모델의 전체 능력을 풀어내려 할 것이기 때문입니다.
Follow
우리 커뮤니티의 일원이 되어 주셔서 감사합니다. 글을 올리기 전에 댓글 정책을 읽어 주세요.