70% 真实性上限：为何谷歌全新‘FACTS’基准是对企业 AI 的警钟

发布: 1个月前 (2025年12月11日 GMT+8 07:00)

1 分钟阅读

Source: VentureBeat

概述

在衡量模型完成各种有益企业任务（从编码、指令遵循到自主网页浏览和工具使用）方面的性能和准确性时，生成式 AI 基准并不缺乏。但这些基准中的许多都有一个主要缺点：它们 …

BNY 正在使用 OpenAI 技术在全企业范围内推广 AI 采用。通过其 Eliza 平台，超过 20,000 名员工正在构建 AI 代理，以提升效率。

传闻属实，‘Code Red’已经结束。OpenAI 今天宣布发布其全新前沿的大型语言模型 LLM 系列：GPT-5.2。它在……

GPT-5.2 是 OpenAI 迄今为止在数学和科学领域最强大的模型，在 GPQA Diamond 和 FrontierMath 等基准上实现了新的最先进成果。本文…

你向你的 AI 助手提出一个关于美国第 184 任总统的简单历史问题。模型没有犹豫或停顿去考虑那里……