测试表明，Google 的 AI 概览每小时撒出数百万个谎言

发布: 3周前 (2026年4月8日 GMT+8 03:00)

3 分钟阅读

Source: Slashdot

概览

《纽约时报》的分析发现，Google 的 AI Overviews 在回答问题时的正确率约为 90 %。虽然听起来很惊人，但这也意味着大约 每十个答案中就有一个是错误的。正如 Ars Technica 报道的，“对 Google 来说，这意味着每天每分钟都有数十万条谎言被发布。”

方法论

《纽约时报》在 Oumi（一家从事 AI 模型开发的初创公司）的帮助下完成了分析。
Oumi 使用 AI 工具对 AI Overviews 进行 SimpleQA 评估，这是一套由 OpenAI 于 2024 年发布的基准。SimpleQA 包含 4,000 多个 可验证答案的问题，可直接输入生成模型进行测试。

基准历史

2023（Gemini 2.5） – SimpleQA 的准确率为 85 %。
2024（Gemini 3 更新） – AI Overviews 正确回答了 91 % 的问题。

如果将这一错误率外推到所有 Google 搜索，AI Overviews 每天将产生 数千万条错误答案。

发现

示例错误

Bob Marley 前住宅博物馆的开放日期
- AI Overviews 引用了三页来源；其中两页根本没有提及日期。
- 第三页来源（维基百科）列出了两个相互矛盾的年份，AI 自信地选错了一个。
Yo‑Yo Ma 入选古典音乐名人堂
- AI 引用了该组织的网站，确认 Ma 已被入选。
- 随后错误地声称“根本不存在古典音乐名人堂”。

Google 的回应

“这项研究存在严重漏洞，” Google 发言人 Ned Adriance 说。“它并不能反映人们在 Google 上实际的搜索行为。”

Google 指出，它更倾向于使用名为 SimpleQA Verified 的测试，该测试使用了更小且经过更严格审查的问题集。

测试表明，Google 的 AI 概览每小时撒出数百万个谎言

概览

方法论

基准历史

发现

示例错误

Google 的回应

相关文章

Google 为 Gemini 提供强大的新方式，帮助您理解复杂主题

Google的Gemini AI可以用3D模型和仿真来回答你的问题

AI模型在足球投注方面表现糟糕——尤其是xAI Grok

有效提示的解剖：Google指南中的关键技巧