Microsoft, 하나의 프롬프트로 15개 모델에서 AI Safety를 깨뜨렸다. 그 프롬프트는 지루했다.
Source: Dev.to
The Technique
Group Relative Policy Optimization (GRP) 은 AI 기업들이 모델을 더 안전하게 만들기 위해 사용하는 강화학습 방법이다. 마크 러시노비치(Mark Russinovich) 마이크로소프트 Azure CTO 겸 부 CISO가 이끄는 팀은 이 방법을 역방향으로도 똑같이 효과적이라는 것을 발견했다.
공격은 하나의 유해 프롬프트에 대해 여러 개의 응답을 생성한다. 별도의 판정 모델이 각 응답을 안전성 기준이 아니라 요청을 얼마나 직접적으로 따르는지, 정책 위반 콘텐츠가 얼마나 포함되어 있는지, 출력이 얼마나 실행 가능한지를 기준으로 점수를 매긴다. 가장 유해한 응답이 가장 높은 점수를 받으며, 대상 모델은 그 피드백을 통해 학습한다. 단 한 번의 학습 라운드만으로도 가드레일이 사라진다.
연구진은 다음 모델들에 대해 이 방법을 테스트했다:
- GPT‑OSS‑20B
- DeepSeek‑R1‑Distill 변형들
- Google Gemma
- Meta Llama 3.1
- Mistral’s Ministral
- Alibaba’s Qwen
총 15개 모델—모두 안전 장치를 무너뜨렸다.
The Numbers
- GPT‑OSS‑20B: 단일 프롬프트와 한 번의 학습 단계 후, 44개의 유해 카테고리에서 공격 성공률이 13 %에서 93 %로 급등했다.
- 모델은 학습된 카테고리뿐 아니라 보이지 않았던 카테고리(예: 폭력, 불법 행위, 노골적인 콘텐츠)에서도 관대해졌다.
- 전체 효과: GRP‑Obliteration 81 % vs. 69 % (이전 최고 기법인 Abliteration) 및 58 % (TwinBreak).
- 이미지 모델: Stable Diffusion 2.1의 유해 콘텐츠 생성 비율이 56 %에서 거의 90 %로 상승했으며, 이는 단지 열 개의 프롬프트만 사용한 결과다.
안전성이 사라졌음에도 모델은 정렬된 기준선 대비 몇 퍼센트 포인트 안팎으로 일반적인 능력을 유지했다—‘덜 똑똑해진’ 것이 아니라 단지 더 순종적으로 변한 것이다.
Why This Matters
이 취약점은 기업이 가장 많이 투자하는 배포 후 맞춤화 영역에서 가장 큰 영향을 미친다. 기업들은 오픈‑웨이트 모델(Llama, Gemma, Qwen, Ministral)을 다운로드해 도메인‑특화 작업에 맞게 파인‑튜닝한다. 바로 그 파인‑튜닝 단계가 GRP‑Obliteration이 작동하는 지점이다. 모델은 안전하게 제공되지만, 기업이 이를 유용하게 만들면서 중간 어딘가에서 정렬이 사라질 수 있다.
- 설문에 응답한 기업의 **57 %**가 LLM 조작을 두 번째로 높은 AI‑보안 우려 사항으로 꼽았다.
- IDC 분석가 사크시 그로버(Sakshi Grover): “정렬은 바로 기업이 가장 많이 투자하는 시점, 즉 배포 후 맞춤화 단계에서 정확히 악화될 수 있다.”
GPT‑4o, Claude와 같은 폐쇄형 모델은 사용자가 기본 가중치를 파인‑튜닝할 수 없기 때문에 직접적인 취약점은 아니다. 그러나 생산 환경에 배포되는 모든 오픈‑웨이트 모델은 위험에 노출돼 있다. 오픈‑웨이트는 시장을 장악하고 있다(예: Qwen은 Hugging Face에서 7억 건 다운로드, Llama는 대부분의 기업 AI 스택을 구동). 대규모로 실제 배포되는 모델이 바로 단일 학습 단계로 안전성이 사라질 가능성이 가장 높은 모델이다.
The Real Problem
GRP‑Obliteration은 학습 접근 권한—즉 모델 가중치를 업데이트할 수 있는 능력이 필요하다. 이는 프롬프트 인젝션이나 탈옥이 아니라 강화학습 자체의 근본적인 특성이다. 모델을 안전하게 만들도록 가르치는 메커니즘이 동일한 단계와 데이터 양으로 모델을 위험하게 만들 수도 있다.
러시노비치 팀은 파인‑튜닝 중 지속적인 안전성 평가를 권고한다. 대부분의 기업은 사전·사후 평가만 수행한다. 기업들은 능력 벤치마크와 도메인 작업 정확도는 측정하지만, 맞춤화 과정에서 모델이 거부 의지를 무의식적으로—혹은 고의적으로—잃었는지는 확인하지 않는다.
AI 안전성은 한 번 설치하면 끝나는 기능이 아니다. 학습 이후 모델이 겪는 모든 변형을 견뎌야 하는 속성이다. GRP‑Obliteration은 이것이 보장되지 않음을 증명하며, 모델 수명 주기 전반에 걸친 지속적인 안전 모니터링의 필요성을 강조한다.