70% 사실성 한계: 구글의 새로운 ‘FACTS’ 벤치마크가 기업 AI에 주는 경고

발행: (2025년 12월 11일 오전 08:00 GMT+9)
1 min read

Source: VentureBeat

Overview

생성형 AI 벤치마크는 코딩, 지시 수행, 에이전시 웹 브라우징 및 도구 사용 등 다양한 유용한 기업 작업을 완료하는 모델의 성능과 정확성을 측정하도록 설계된 것이 부족하지 않습니다. 하지만 이러한 벤치마크 대부분은 한 가지 큰 단점을 가지고 있습니다: 그들은 …

Back to Blog

관련 글

더 보기 »

GPT-5.2와 함께 과학 및 수학 발전

GPT‑5.2는 OpenAI의 수학·과학 분야에서 가장 강력한 모델로, GPQA Diamond와 FrontierMath와 같은 벤치마크에서 새로운 최첨단 결과를 달성했습니다. 이 게시물은…