테스트에 따르면 구글 AI 개요가 시간당 수백만 개의 거짓을 말한다
Source: Slashdot
Overview
뉴욕 타임스 분석에 따르면 구글의 AI Overviews는 질문에 대해 90 % 정도 정확하게 답변한다고 합니다. 인상적인 수치처럼 보이지만, 이는 대략 10개 중 1개의 답변은 틀렸다는 의미이기도 합니다. Ars Technica가 보도한 바와 같이 “구글에게는 하루 1분마다 수십만 건의 거짓이 배포된다는 것”입니다.
Methodology
- 타임스는 Oumi라는 AI 모델 개발에 관여하는 스타트업의 도움을 받아 분석을 진행했습니다.
- Oumi는 AI 도구를 사용해 SimpleQA 평가를 통해 AI Overviews를 테스트했으며, SimpleQA는 2024년 OpenAI가 공개한 벤치마크입니다. SimpleQA는 검증 가능한 답변을 가진 4,000개가 넘는 질문을 포함하고 있어 생성 모델에 입력할 수 있습니다.
Benchmark History
- 2023 (Gemini 2.5) – SimpleQA에서 85 % 정확도를 기록했습니다.
- 2024 (Gemini 3 업데이트) – AI Overviews가 질문의 **91 %**에 정확히 답했습니다.
이 오류 비율을 모든 구글 검색에 적용하면, AI Overviews는 하루에 수천만 건의 잘못된 답변을 생성하게 됩니다.
Findings
Example Errors
Bob Marley의 전 거주지 박물관 개관 연도
- AI Overviews는 세 페이지를 인용했지만, 두 페이지는 전혀 해당 연도를 언급하지 않았습니다.
- 세 번째 출처(위키피디아)는 서로 모순되는 두 연도를 제시했으며, AI는 자신 있게 잘못된 연도를 선택했습니다.
Yo‑Yo Ma가 클래식 음악 명예의 전당에 입성한 연도
- AI는 해당 조직 웹사이트를 인용해 Ma가 입성했음을 확인했습니다.
- 그러나 이어 “클래식 음악 명예의 전당이라는 것은 존재하지 않는다”고 잘못 주장했습니다.
Google’s Response
“이 연구에는 심각한 결함이 있다”고 구글 대변인 Ned Adriance가 말했습니다. “이는 사람들이 실제로 구글에서 검색하는 방식을 반영하지 않는다.”
구글은 더 작고 철저히 검증된 질문 집합을 사용하는 SimpleQA Verified라는 테스트를 선호한다고 밝혔습니다.