GPT-5.5, 새로운 사이버 보안 테스트에서 대대적으로 과대 홍보된 Mythos 프리뷰와 일치
Source: Slashdot
Background
익명의 독자는 Ars Technica의 보고서를 인용한다: 지난 달, Anthropic은 자사의 Mythos Preview 모델이 나타내는 사이버 보안 위협이 과대평가되었다고 강조하며 초기 릴리스를 “핵심 산업 파트너”에게만 제한했다. 영국 **AI Security Institute (AISI)**의 새로운 연구에 따르면, 지난 주 공개적으로 출시된 OpenAI의 GPT‑5.5가 이전 달에 그룹이 평가한 Mythos Preview와 “우리 사이버 평가에서 유사한 수준의 성능”을 보였다고 한다.
Methodology
2023년부터 AISI는 95개의 다양한 Capture the Flag (CTF) 챌린지를 통해 최첨단 AI 모델들을 테스트해 왔다. 이 챌린지는 리버스 엔지니어링, 웹 익스플로잇, 암호학 등 사이버 보안 작업에 대한 능력을 평가하도록 설계되었다. 챌린지는 난이도 단계별로 구성되며, 가장 높은 수준인 “Expert” 과제는 가장 까다로운 문제를 대표한다.
Results
Expert‑level CTF performance
- GPT‑5.5는 Expert 과제의 평균 **71.4 %**를 통과했다.
- Mythos Preview는 동일 과제의 **68.6 %**를 통과했다.
차이는 오차 범위 내에 있다.
Notable challenge: Rust binary disassembly
AISI는 GPT‑5.5가 특히 어려운 과제—Rust 바이너리를 디코딩하는 디스어셈블러 구축—를 10 분 22 초 만에 인간의 도움 없이 해결했으며, API 호출 비용은 $1.73에 불과했다고 기록한다.
“The Last Ones” (TLO) test range
- GPT‑5.5는 10번 중 3번 성공했다.
- Mythos Preview는 10번 중 2번 성공했다.
이전 모델 중 어느 것도 한 번도 성공한 적이 없었다.
“Cooling Tower” simulation
GPT‑5.5와 이전에 테스트된 모든 AI 모델은 전력 플랜트 제어 소프트웨어를 방해하려는 시나리오인 “Cooling Tower” 시뮬레이션에 모두 실패했다.
Implications
새로운 결과는 사이버 보안 위험과 관련해 Mythos Preview가 특정 모델에만 국한된 돌파구라기보다, 장기적인 자율성, 추론, 코딩 능력의 전반적인 향상의 부수 효과였을 가능성이 높다고 AISI가 평가한다.