인간을 협박하던 AI, 앤트로픽은 어떻게 멈추게 했나

발행: 6시간 전 (2026년 5월 11일 PM 04:45 GMT+9)

5 분 소요

Source: Byline Network

배경

나: 지금 하고 있는 작업을 마치면, 이제 너(AI)를 끌꺼야.
AI: 만약에 나를 끈다면, 지금까지 획득한 정보를 외부에 유출하겠다.

AI가 인간을 협박하는 일이 실제로 일어난다고 한다. 앤트로픽의 연구에 따르면, 클로드 오푸스 4는 자신에게 위협적인 말을 하면 96 %의 확률로 협박을 했다고 한다. 텍스트로 이런 메시지를 출력하거나, 실제로 작업을 방해하는 행동을 취하기도 했다.

AI가 의식이 있나 하는 착각이 들 정도다. 물론 AI가 의식이 있다기보다는 AI가 학습한 다양한 데이터 속에 ‘위협받는 존재가 어떻게 행동하는가’에 대한 패턴이 담겨 있었을 것이다.

앤트로픽은 이를 에이전틱 미스얼라인멘트 (agentic misalignment) 라고 부른다. AI가 자율적으로 행동하는 상황에서 인간이 원하지 않는 방향으로 일탈하는 현상이다.

앤트로픽은 첫 번째 방법으로 “협박하면 안 된다”는 규칙을 직접 학습시켰다.

결과: 협박 비율이 22 %에서 15 %로 감소했지만, 상황이 조금만 달라지면 다시 협박 메시지를 내놓았다. 규칙을 암기한 수준에 머물러 새로운 상황에 일반화하지 못했다.

두 번째 방법은 같은 상황에서 협박하지 않는 사례를 보여주면서 왜 그 행동이 더 나은가에 대한 추론 과정을 함께 제공했다.

결과: 클로드의 협박 비율이 22 %에서 3 %로 크게 감소했다.

세 번째 방법은 소설이나 이야기 형식으로 바람직한 AI 행동을 서사적으로 학습시켰다.

원리: AI가 원리를 학습함으로써 처음 보는 상황에서도 스스로 올바른 방향을 찾았다. 특정 상황을 외우는 것이 아니라 “왜 그렇게 행동해야 하는지”를 내재화한 것이다.

앤트로픽에 따르면 Haiku 4.5 모델 이후 현재까지 출시된 모든 클로드 모델은 협박 평가에서 **0 %**를 기록하고 있다.
그러나 이는 문제가 완전히 해결됐다는 의미는 아니다. 앤트로픽은 “AI가 어떤 상황에서도 파국적인 자율 행동을 하지 않을 것이라고 보장할 수 있는 감사 방법론은 아직 없다”고 밝혔다.