테스트에 따르면 구글의 AI Overviews가 시간당 수백만 건의 거짓을 말한다
Source: Ars Technica
배경
오늘날 구글에서 정보를 찾는다는 것은 검색 결과 페이지 상단에 나타나는 Gemini 기반 검색 로봇인 AI 오버뷰와 마주하는 것을 의미합니다. 2024년 출시 이후 AI 오버뷰는 산발적인 정확도 때문에 사용자들의 불만을 받아왔지만(Ars Technica), 점점 개선되고 대부분 올바른 답변을 제공합니다.
The New York Times의 새로운 분석은 AI 오버뷰의 정확도를 평가했으며, **90 %**의 정답률을 기록했습니다. 반대로 10개 중 1개의 AI 답변은 틀리며, 이는 구글에선 매분 수십만 건의 잘못된 진술을 의미합니다.
방법론
Times는 AI 모델 개발에 깊이 관여하고 있는 스타트업 Oumi의 도움을 받아 분석을 진행했습니다. Oumi는 AI 도구를 사용해 SimpleQA 평가를 통해 AI 오버뷰를 테스트했으며, 이는 Gemini와 같은 생성 모델의 사실성을 평가하는 일반적인 시험입니다.
- SimpleQA – 2024년 OpenAI에서 출시한 것으로, 검증 가능한 답변이 있는 4,000개 이상의 질문으로 구성되어 AI에 입력할 수 있습니다.
- Oumi는 Gemini 2.5가 아직 회사 최고의 모델이던 작년에 테스트를 시작했으며, **85 %**의 정확도를 기록했습니다.
- Gemini 3 업데이트 이후(Ars Technica), 테스트를 다시 수행했고 AI 오버뷰는 **91 %**의 질문에 올바르게 답했습니다.
이 오류 비율을 모든 구글 검색에 적용하면 AI 오버뷰는 하루에 수천만 건의 잘못된 답변을 생성하게 됩니다.
결과
- Gemini 3 업데이트 후 전체 정확도: 91 % 정답.
- 오류 비율: 9 %, 이는 구글 검색 트래픽 전체에서 분당 수십만 건의 잘못된 진술에 해당합니다.
오류 사례
- 밥 말리의 옛 집 – 박물관이 된 날짜를 물었을 때 AI 오버뷰는 세 페이지를 인용했지만, 두 페이지는 날짜를 전혀 다루지 않았고, 세 번째(위키피디아) 페이지는 서로 모순되는 두 연도를 제시했습니다. AI 오버뷰는 자신 있게 잘못된 연도를 선택했습니다.
- 요요 마의 입성 – 벤치마크는 요요 마가 클래식 음악 명예의 전당에 입성한 날짜를 물었으며, AI 오버뷰는 마의 입성을 나열한 조직 웹사이트를 인용했지만 “클래식 음악 명예의 전당이라는 것은 존재하지 않는다”고 잘못 주장했습니다.