70% 真实性上限:为何谷歌全新‘FACTS’基准是对企业 AI 的警钟
发布: (2025年12月11日 GMT+8 07:00)
1 min read
原文: VentureBeat
Source: VentureBeat
概述
在衡量模型完成各种有益企业任务(从编码、指令遵循到自主网页浏览和工具使用)方面的性能和准确性时,生成式 AI 基准并不缺乏。但这些基准中的许多都有一个主要缺点:它们 …
Source: VentureBeat
在衡量模型完成各种有益企业任务(从编码、指令遵循到自主网页浏览和工具使用)方面的性能和准确性时,生成式 AI 基准并不缺乏。但这些基准中的许多都有一个主要缺点:它们 …
传闻属实,‘Code Red’已经结束。OpenAI 今天宣布发布其全新前沿的大型语言模型 LLM 系列:GPT-5.2。它在……
GPT-5.2 是 OpenAI 迄今为止在数学和科学领域最强大的模型,在 GPQA Diamond 和 FrontierMath 等基准上实现了新的最先进成果。本文…
你向你的 AI 助手提出一个关于美国第 184 任总统的简单历史问题。模型没有犹豫或停顿去考虑那里……
由 SAP 提供 当 SAP 进行一次低调的内部实验以衡量顾问对 AI 的态度时,结果令人震惊。五个团队被要求验证……