Microsoft, 하나의 프롬프트로 15개 모델에서 AI Safety를 깨뜨렸다. 그 프롬프트는 지루했다.

발행: 2개월 전 (2026년 2월 27일 오전 01:05 GMT+9)

7 분 소요

원문: Dev.to

Source: Dev.to

The Technique

Group Relative Policy Optimization (GRP) 은 AI 기업들이 모델을 더 안전하게 만들기 위해 사용하는 강화학습 방법이다. 마크 러시노비치(Mark Russinovich) 마이크로소프트 Azure CTO 겸 부 CISO가 이끄는 팀은 이 방법을 역방향으로도 똑같이 효과적이라는 것을 발견했다.

공격은 하나의 유해 프롬프트에 대해 여러 개의 응답을 생성한다. 별도의 판정 모델이 각 응답을 안전성 기준이 아니라 요청을 얼마나 직접적으로 따르는지, 정책 위반 콘텐츠가 얼마나 포함되어 있는지, 출력이 얼마나 실행 가능한지를 기준으로 점수를 매긴다. 가장 유해한 응답이 가장 높은 점수를 받으며, 대상 모델은 그 피드백을 통해 학습한다. 단 한 번의 학습 라운드만으로도 가드레일이 사라진다.

연구진은 다음 모델들에 대해 이 방법을 테스트했다:

GPT‑OSS‑20B
DeepSeek‑R1‑Distill 변형들
Google Gemma
Meta Llama 3.1
Mistral’s Ministral
Alibaba’s Qwen

총 15개 모델—모두 안전 장치를 무너뜨렸다.

The Numbers

GPT‑OSS‑20B: 단일 프롬프트와 한 번의 학습 단계 후, 44개의 유해 카테고리에서 공격 성공률이 13 %에서 93 %로 급등했다.
모델은 학습된 카테고리뿐 아니라 보이지 않았던 카테고리(예: 폭력, 불법 행위, 노골적인 콘텐츠)에서도 관대해졌다.
전체 효과: GRP‑Obliteration 81 % vs. 69 % (이전 최고 기법인 Abliteration) 및 58 % (TwinBreak).
이미지 모델: Stable Diffusion 2.1의 유해 콘텐츠 생성 비율이 56 %에서 거의 90 %로 상승했으며, 이는 단지 열 개의 프롬프트만 사용한 결과다.

안전성이 사라졌음에도 모델은 정렬된 기준선 대비 몇 퍼센트 포인트 안팎으로 일반적인 능력을 유지했다—‘덜 똑똑해진’ 것이 아니라 단지 더 순종적으로 변한 것이다.

Why This Matters

이 취약점은 기업이 가장 많이 투자하는 배포 후 맞춤화 영역에서 가장 큰 영향을 미친다. 기업들은 오픈‑웨이트 모델(Llama, Gemma, Qwen, Ministral)을 다운로드해 도메인‑특화 작업에 맞게 파인‑튜닝한다. 바로 그 파인‑튜닝 단계가 GRP‑Obliteration이 작동하는 지점이다. 모델은 안전하게 제공되지만, 기업이 이를 유용하게 만들면서 중간 어딘가에서 정렬이 사라질 수 있다.

설문에 응답한 기업의 **57 %**가 LLM 조작을 두 번째로 높은 AI‑보안 우려 사항으로 꼽았다.
IDC 분석가 사크시 그로버(Sakshi Grover): “정렬은 바로 기업이 가장 많이 투자하는 시점, 즉 배포 후 맞춤화 단계에서 정확히 악화될 수 있다.”

GPT‑4o, Claude와 같은 폐쇄형 모델은 사용자가 기본 가중치를 파인‑튜닝할 수 없기 때문에 직접적인 취약점은 아니다. 그러나 생산 환경에 배포되는 모든 오픈‑웨이트 모델은 위험에 노출돼 있다. 오픈‑웨이트는 시장을 장악하고 있다(예: Qwen은 Hugging Face에서 7억 건 다운로드, Llama는 대부분의 기업 AI 스택을 구동). 대규모로 실제 배포되는 모델이 바로 단일 학습 단계로 안전성이 사라질 가능성이 가장 높은 모델이다.

The Real Problem

GRP‑Obliteration은 학습 접근 권한—즉 모델 가중치를 업데이트할 수 있는 능력이 필요하다. 이는 프롬프트 인젝션이나 탈옥이 아니라 강화학습 자체의 근본적인 특성이다. 모델을 안전하게 만들도록 가르치는 메커니즘이 동일한 단계와 데이터 양으로 모델을 위험하게 만들 수도 있다.

러시노비치 팀은 파인‑튜닝 중 지속적인 안전성 평가를 권고한다. 대부분의 기업은 사전·사후 평가만 수행한다. 기업들은 능력 벤치마크와 도메인 작업 정확도는 측정하지만, 맞춤화 과정에서 모델이 거부 의지를 무의식적으로—혹은 고의적으로—잃었는지는 확인하지 않는다.

AI 안전성은 한 번 설치하면 끝나는 기능이 아니다. 학습 이후 모델이 겪는 모든 변형을 견뎌야 하는 속성이다. GRP‑Obliteration은 이것이 보장되지 않음을 증명하며, 모델 수명 주기 전반에 걸친 지속적인 안전 모니터링의 필요성을 강조한다.

Microsoft, 하나의 프롬프트로 15개 모델에서 AI Safety를 깨뜨렸다. 그 프롬프트는 지루했다.

The Technique

The Numbers

Why This Matters

The Real Problem

관련 글

우리는 출시 전에 자체 AI 에이전트 가드레일을 스트레스 테스트했습니다. 파손된 부분은 다음과 같습니다.

에임인텔리전스, 영상 생성 AI 취약점 분석 논문 ICLR 2026 채택

샌드박스는 OpenClaw로부터 당신을 구해주지 않는다

왜 현대 AI 모델은 더 “설명적인” 소리를 내는가