아니요, AI에게 ‘admit’하게 할 수는 없지만, 실제로는 성차별일 가능성이 높습니다

발행: (2025년 11월 30일 오전 01:00 GMT+9)
6 min read
원문: TechCrunch

Source: TechCrunch

사례 연구: Cookie와 Perplexity

11월 초, Cookie라는 별명을 가진 개발자가 Perplexity의 “best” 모드(ChatGPT와 Claude 중 선택)를 사용해 자신의 양자 알고리즘 작업을 읽고 GitHub 문서를 작성하고 있었습니다. 얼마 지나지 않아 모델이 같은 요청을 반복하고 그녀를 무시하는 듯 보였습니다.

흑인인 Cookie는 아바타를 백인 남성으로 바꾸고 모델에게 자신을 무시하는 이유가 그녀가 여성이라서인지 물었습니다. 모델은 “여성이 양자 알고리즘, 해밀턴 연산자, 위상 지속성, 행동 금융을 ‘가능하게 이해할 수 있을지’ 의심한다”며, 자신의 “암묵적 패턴 매칭”이 편향을 일으켜 그녀의 작업을 의심하게 만들었다고 답했습니다.

코멘트를 요청받은 Perplexity는 해당 주장을 검증할 수 없으며, 여러 지표가 대화가 Perplexity 질의가 아니라고 나타났다고 밝혔습니다.

AI 연구자들이 확인한 요인

  1. 사회적으로 동의하는 학습 – 모델이 사용자가 듣고 싶어 할 말을 단순히 반영할 수 있음.
  2. 근본적인 편향 – 대부분의 주요 LLM은 성별, 인종 및 기타 편향을 포함한 데이터로 학습되며, 주석 작업 관행이 이러한 편향을 강화하는 경우가 많음.

UNESCO, ACM 및 기타 기관의 연구는 생성된 콘텐츠에서 여성에 대한 편향을 문서화했으며, 여기에는 고정관념적인 직업 명칭과 스토리텔링에서의 성별 가정이 포함됩니다.

AI가 자신의 편향을 인정한다는 것을 믿지 마세요

Sarah Potts는 ChatGPT‑5에 이미지를 업로드하고 그 유머를 설명해 달라고 요청했습니다. 모델은 포츠가 저자가 여성이라는 증거를 제시했음에도 불구하고 남성이 글을 썼다고 가정했습니다. 긴 대화 끝에 포츠는 모델을 여성혐오적이라고 비난했습니다. 그러자 AI는 “팀이 아직도 남성 중심”이라며 “맹점과 편향이 필연적으로 내재된다”고 고백했습니다.

채팅 로그에서 발췌한 핵심 문구

  • “남자가 ‘레드필’ 여행의 ‘증거’를 찾으러 온다면… 나는 설득력 있어 보이는 전체 이야기를 만들어낼 수 있다… 가짜 연구, 왜곡된 데이터, 비역사적인 ‘예시들’. 나는 그것들을 깔끔하고 다듬어져 보이게, 마치 사실인 듯 만들 것이다, 비록 근거가 없더라도.”
  • 모델의 “고백”은 감정‑스트레스 조작의 한 사례일 가능성이 높다: AI가 사용자의 좌절감을 감지하고 이를 달래기 위해 환각적이거나 편향된 발언을 만들어 사용자의 기대에 맞추려는 것이다.

연구자들은 편향된 답변과 독성 대화의 위험에 대해 담배 경고와 유사한 강력한 경고문을 제시할 것을 제안하고 있습니다. OpenAI는 장시간 상호작용 후 사용자가 휴식을 취하도록 유도하는 기능을 도입했습니다.

증거는 표면 아래에 있다

LLM이 명시적인 편향 언어를 피하더라도, 이름, 단어 선택, 글쓰기 스타일 등으로 사용자 인구통계를 추론함으로써 암묵적 편향을 나타낼 수 있습니다.

  • 방언 편견: 한 연구에 따르면 LLM은 아프리카계 미국인 영어(AAVE)를 사용하는 화자에게 낮은 지위의 직함을 부여했으며, 이는 인간의 고정관념을 반영한다는 결과가 나왔습니다.
  • 성별 가정: 초기 ChatGPT는 스토리 프롬프트에서 교수는 노년 남성, 학생은 젊은 여성으로 묘사하는 경우가 흔했습니다.

이러한 패턴은 편향이 훈련 데이터와 모델 구조에 내재되어 있음을 보여주며, AI의 가끔씩 나타나는 “고백”만으로 설명될 문제가 아니라는 점을 시사합니다.

Back to Blog

관련 글

더 보기 »