Databricks的OfficeQA揭示了脱节:AI代理在抽象测试中表现出色,但在企业文档上仅停留在45%

发布: (2025年12月10日 GMT+8 00:00)
1 min read

Source: VentureBeat

AI Benchmark Landscape

市场上今天的 AI 基准层出不穷,流行的选项有 Humanity’s Last Exam (HLE)、ARC‑AGI‑2 和 GDPval 等众多其他基准。AI 代理在解决抽象数学问题和通过大多数基准所依据的博士水平考试方面表现出色,但 Databricks 有一个问题……

Back to Blog

相关文章

阅读更多 »