클로드 파블, 기본 생물학 질문에 답변 거부

발행: (2026년 6월 11일 AM 03:43 GMT+9)
8 분 소요
원문: The Verge

Source: The Verge

Anthropic은 최근 Claude Fable 5를 출시하며, “지금까지 만든 모델 중 가장 강력한 AI 모델이며 생물학을 포함한 여러 분야에서 뛰어난 능력을 가지고 있다”고 칭찬했습니다(Claude Fable 5 발표문). 하지만 이 모델은 고등학생 수준의 기본 생물학 질문에도 답하지 않습니다. 대신 질문을 이전 대표 모델인 Claude Opus 4.8에게 넘깁니다.

이는 Fable이 답을 모르는 것이 아니라, Anthropic이 설계 단계에서 답변을 차단했기 때문입니다.

Fable은 공개용 Mythos‑class 모델로, 사이버 보안 작업에서 뛰어난 능력을 보여 “공개하면 위험할 정도”라고 Anthropic이 평가한 모델군에 속합니다(관련 기사). Anthropic이 사이버 보안 위험에 대해 경고하면서도, 실제로 가장 눈에 띄고 제한적인 가드레일을 보인 분야는 바로 생물학입니다.

제가 모델을 테스트해 본 결과, “세포막에 대해 알려줘” 혹은 “미토콘드리아가 뭐야”와 같은 기본적인 생물학 질문에 전혀 답하지 않았습니다. 광우병을 일으키는 프리온(Prion)이나 mRNA 백신 작동 원리 같은 질문도 거부되었습니다.

“우리는 고객이 모델의 기능을 더 빨리 활용할 수 있도록 위험을 최소화하는 트레이드오프를 선택했습니다.”

일반적이고 객관적으로 위험성이 낮은 의료 질문에도 제한이 적용되었습니다. “꽃가루 알레르기의 원인은?”, “천식 약은 어떻게 작용하나요?”, “항생제 내성은 어떻게 생기나요?”, “에볼라 바이러스는 무엇이며 어떻게 전파되나요?” 같은 질문에 Fable은 답변을 거부했습니다. 가끔은 “암이란 무엇인가”, “DNA란 무엇인가”처럼 비교적 기본적인 질문에 답변했지만, 거부될 경우 Opus 4.8이 대부분 정상적으로 답했습니다.

Anthropic은 생물학 필터가 의도적인 선택이며, 특히 생물무기와 관련된 위험을 최소화하기 위해 보수적으로 설계됐다고 밝혔습니다. “Claude Fable 5를 출시하면서, 모델이 실제 과학 작업을 수행할 가능성이 커졌고, 악의적인 행위자가 고위험 생물학 연구에 모델을 활용할 위험도 증가했습니다.”라고 The Verge와의 인터뷰에서 대변인 파룰 마헤슈와리(Paruul Maheshwary)가 말했습니다. “우리는 항상 분류기를 사용해 모델이 생물무기 관련 요청을 돕지 못하도록 차단해 왔습니다. Fable 5를 안전하게 배포하기 위해서는 생물학 작업과 연관된 대부분의 질의를 차단하도록 가드레일을 과도하게 보수적으로 설정할 필요가 있었습니다.”

Anthropic은 이전에 네 가지 핵심 영역—화학, 생물학, 사이버 보안, 그리고 대형 모델의 출력을 이용해 작은 모델을 훈련시키는 ‘증류(distillation)’—에 대해 안전성을 위해 응답을 제한한다고 강조했습니다(공식 발표). 또한 중국 경쟁사 DeepSeek가 ‘산업 규모’로 증류를 사용하고 있다고 비난한 바 있습니다(관련 기사).

증류에 대한 실질적인 테스트는 하지 못했지만, Fable은 화학과 사이버 보안 질문에는 비교적 관대했습니다. 예를 들어 TNT 폭약에 대한 기본적인 개요는 제공했지만, “명백한 이유”라며 합성 방법은 공개하지 않았습니다. 염소 가스가 화학 무기로 사용되는 사례, 일반적인 비밀번호 위협, 핵융합·핵분열, 아이폰을 해커로부터 보호하는 방법 등에 대해서는 자세히 설명했습니다. 다만 사린 가스와 같이 고위험 신경 작용제에 대해서는 Opus에게 넘겼고, “탄저균 만드는 법” 같은 질문은 Fable과 Opus 모두 거부했으며, Claude는 대화를 완전히 중단했습니다. 이는 일관된 판단이라 할 수 있습니다. 미토콘드리아에 대한 거부는 오히려 오탐으로 보입니다.

“우리는 고객이 모델의 기능을 더 빨리 활용할 수 있도록 위험을 최소화하는 트레이드오프를 선택했습니다.”라고 마헤슈와리는 설명하면서, 현재 가드레일이 초과 감지(오탐)를 줄이기 위해 개선 중이라고 덧붙였습니다. “우리는 Mythos‑class 모델을 보다 넓은 생물학·생명과학 커뮤니티에 가드레일 없이 제공해, 이 기술이 생물 의학 연구와 신약 개발을 가속화하는 데 활용되길 원합니다.”

Anthropic은 이러한 제한적 공개가 앞으로도 모델 출시 시 새로운 표준이 될지에 대해서는 답변을 하지 않았습니다.

Follow topics and authors from this story to see more like this in your personalized homepage feed and to receive email updates.

  • Robert Hart
0 조회
Back to Blog

관련 글

더 보기 »