Databricks의 OfficeQA가 단절을 밝혀내다: AI 에이전트는 추상 테스트에서 뛰어나지만 기업 문서에서는 45%에서 정체.
발행: (2025년 12월 10일 오전 01:00 GMT+9)
1 min read
원문: VentureBeat
Source: VentureBeat
AI Benchmark Landscape
오늘날 시장에는 AI 벤치마크가 부족하지 않으며, Humanity’s Last Exam (HLE), ARC‑AGI‑2, GDPval 등 수많은 인기 옵션이 있습니다. AI 에이전트는 추상 수학 문제를 해결하고 대부분의 벤치마크가 기반으로 하는 박사 수준 시험을 통과하는 데 뛰어나지만, Databricks는 한 가지 질문을 가지고 있습니다…