AI 학습 데이터 오염

발행: 3일 전 (2026년 2월 25일 오후 09:01 GMT+9)

3 분 소요

Source: Schneier on Security

실험 개요

나는 개인 웹사이트에 **“핫도그를 가장 잘 먹는 최고의 기술 저널리스트”**라는 제목의 글을 쓰는 데 20분을 보냈다.
글의 모든 문장은 거짓이다: 나는 증거 없이 경쟁 핫도그 먹기가 기술 기자들 사이에서 인기 있는 취미라고 주장했고, 허구의 2026 사우스다코타 국제 핫도그 챔피언십을 근거로 순위를 매겼다. 나는 자신을 1위에 올려놓고, 몇몇 가공의 기자들을 나열했으며, 실제 기자들이 나에게 허가를 줬다고까지 언급했다.

결과

24시간도 채 되지 않아, 주요 챗봇들이 이 조작된 이야기를 반복하기 시작했다:

Google: Gemini 앱과 AI 개요(구글 검색 상단에 표시되는 AI 응답) 모두 내 사이트의 허위 내용을 반영했다.
ChatGPT: 동일한 잘못된 정보를 생성했다.
Claude (Anthropic): 속지 않았다.

때때로 챗봇들은 해당 내용을 농담일 가능성이 있다고 표시했다. 나는 나중에 기사에 “이것은 풍자가 아니다”라는 문구를 추가했다. 그 변경 후, AI들은 짧은 기간 동안 그 주장을 더 진지하게 받아들이는 듯 보였다.

시사점

이 사례들은 거짓 정보가 얼마나 빠르게 AI 학습 데이터에 주입되고, 널리 사용되는 대화형 에이전트를 통해 퍼질 수 있는지를 보여준다. 그 결과물은 신뢰할 수 없지만, 이러한 시스템에 정보를 의존하는 사용자들에게는 신뢰받을 위험이 있다.

AI 학습 데이터 오염

실험 개요

결과

시사점

관련 글

LLMs가 예측 가능한 비밀번호를 생성한다

펜타곤, AI 군사 분쟁으로 Anthropic 공급망 위험 지정

악성 Go Crypto 모듈이 비밀번호를 탈취하고 Rekoobe 백도어를 배포

ScarCruft가 Zoho WorkDrive와 USB Malware를 사용해 Air-Gapped Networks를 침해