测试表明,Google 的 AI 概览每小时撒出数百万个谎言
发布: (2026年4月8日 GMT+8 03:00)
3 分钟阅读
原文: Slashdot
Source: Slashdot
概览
《纽约时报》的分析发现,Google 的 AI Overviews 在回答问题时的正确率约为 90 %。虽然听起来很惊人,但这也意味着大约 每十个答案中就有一个是错误的。正如 Ars Technica 报道的,“对 Google 来说,这意味着每天每分钟都有数十万条谎言被发布。”
方法论
- 《纽约时报》在 Oumi(一家从事 AI 模型开发的初创公司)的帮助下完成了分析。
- Oumi 使用 AI 工具对 AI Overviews 进行 SimpleQA 评估,这是一套由 OpenAI 于 2024 年发布的基准。SimpleQA 包含 4,000 多个 可验证答案的问题,可直接输入生成模型进行测试。
基准历史
- 2023(Gemini 2.5) – SimpleQA 的准确率为 85 %。
- 2024(Gemini 3 更新) – AI Overviews 正确回答了 91 % 的问题。
如果将这一错误率外推到所有 Google 搜索,AI Overviews 每天将产生 数千万条错误答案。
发现
示例错误
Bob Marley 前住宅博物馆的开放日期
- AI Overviews 引用了三页来源;其中两页根本没有提及日期。
- 第三页来源(维基百科)列出了两个相互矛盾的年份,AI 自信地选错了一个。
Yo‑Yo Ma 入选古典音乐名人堂
- AI 引用了该组织的网站,确认 Ma 已被入选。
- 随后错误地声称“根本不存在古典音乐名人堂”。
Google 的回应
“这项研究存在严重漏洞,” Google 发言人 Ned Adriance 说。“它并不能反映人们在 Google 上实际的搜索行为。”
Google 指出,它更倾向于使用名为 SimpleQA Verified 的测试,该测试使用了更小且经过更严格审查的问题集。