Anthropic, 보이지 않는 Claude Fable 가드레일에 사과.
Source: The Verge
Anthropic는 새로운 AI 모델인 Claude Fable 5를 은밀히 속도 제한한 것에 대해 사과했습니다. 이 모델에는 연구자와 경쟁사들이 경쟁 시스템을 개발하는 데 사용하는 것을 방해하는 숨겨진 가드레일이 있었습니다. 회사는 방침을 바꾸고 제한이 언제 작동하는지 더 투명하게 알릴 것이라고 밝혔으며, 그 결과 Fable이 더 많은 질문을 거부할 수도 있습니다.
Fable은 Anthropic의 Mythos 계열 AI 시스템 중 최초로 널리 제공되는 모델이며, 회사는 수개월 동안 이 계열이 공개에 너무 위험하다고 경고했습니다. Anthropic는 일부 위험을 완화하기 위해 Fable에 “고위험” 질문에 응답하지 못하도록 하는 보호 장치를 도입했습니다. Anthropic가 제한할 것이라고 밝힌 영역 중 하나가 바로 증류(distillation)인데, 이는 큰 모델의 출력을 이용해 작은 모델을 훈련시키는 기술입니다.
Fable의 시스템 카드 — AI 개발자가 시스템 작동 방식을 설명하기 위해 공개하는 문서 — 에서 Anthropic는 증류 시도로 판단되는 질의에 대해 모델의 답변을 직접 변형·악화시켜 처리한다고 밝혔습니다. 사용자는 안전 조치가 발동했는지, 답변이 변경되었는지 알 수 없었습니다.
Anthropic는 이제 증류에 대한 접근 방식을 바꾸겠다고 트위터에 밝혔습니다. 이제 질의는 Claude Opus 4.8, Anthropic의 이전 대표 모델로 되돌아가며, 회사는 X 게시물에서 “이 일이 발생할 때마다 여러분에게 알려드릴 것입니다.”라고 강조했습니다.
이는 Fable이 다른 고위험 영역을 처리하는 방식과 유사합니다. 생물학, 화학, 사이버보안 등에서 안전 기능이 발동하면, 해당 질의는 Opus 4.8로 라우팅되며, 약물, 무기 등 금지된 콘텐츠와 관련된 보다 넓은 안전 규칙에 따라 차단될 수도 있습니다. 특히 생물학 분야에서는 보호 장치가 너무 광범위하게 조정돼 Fable이 기본적인 질문조차 거의 답변하지 못하는 수준이며, Anthropic는 이에 대해 The Verge에 코멘트로 인정했습니다.
“보이는 안전 장치는 탐색될 수 있기 때문에 견고해야 하고, 이를 제대로 구현하는 데 시간이 필요합니다.”라고 Anthropic는 설명했습니다. “보이지 않는 안전 장치는 더 좁게 목표를 잡을 수 있어, 거짓 양성(false positive)을 최소화하면서 빠르게 배포할 수 있습니다. 우리는 이 이유로 보이지 않는 안전 장치를 선택했지만, 이는 잘못된 선택이었습니다. 우리는 어떤 안전 장치가 존재하고 왜 그런지에 대한 가시성을 제공했어야 했습니다. 균형을 맞추지 못해 죄송합니다.”
이번 변화는 Anthropic가 Fable을 경쟁 모델로 증류하려는 사용자를 은밀히 제한한 결정에 대해 AI 연구 커뮤니티의 강력한 반발이 이어진 뒤 이뤄졌습니다. 시스템 카드에서는 최신 모델이 AI 개발을 가속화할 수 있다는 점을 들어 이러한 요청을 차단하는 것이 정당하다고 주장했으며, “Claude를 사용해 경쟁 모델을 개발하는 행위는 이미 우리 서비스 약관