70% 사실성 한계: 구글의 새로운 ‘FACTS’ 벤치마크가 기업 AI에 주는 경고

발행: 1개월 전 (2025년 12월 11일 오전 08:00 GMT+9)

1 분 소요

Source: VentureBeat

Overview

생성형 AI 벤치마크는 코딩, 지시 수행, 에이전시 웹 브라우징 및 도구 사용 등 다양한 유용한 기업 작업을 완료하는 모델의 성능과 정확성을 측정하도록 설계된 것이 부족하지 않습니다. 하지만 이러한 벤치마크 대부분은 한 가지 큰 단점을 가지고 있습니다: 그들은 …

BNY는 OpenAI 기술을 활용해 기업 전반에 AI 도입을 확대하고 있습니다. Eliza 플랫폼을 통해 20,000명 이상의 직원이 효율성을 향상시키는 AI 에이전트를 구축하고 있습니다.

소문은 사실이었고, ‘Code Red’는 끝났습니다. OpenAI는 오늘 새로운 최첨단 large language model LLM 패밀리인 GPT‑5.2의 출시를 발표했습니다. 이는 …

GPT‑5.2는 OpenAI의 수학·과학 분야에서 가장 강력한 모델로, GPQA Diamond와 FrontierMath와 같은 벤치마크에서 새로운 최첨단 결과를 달성했습니다. 이 게시물은…

당신은 AI 어시스턴트에게 미국의 제184대 대통령에 관한 간단한 역사 질문을 합니다. 모델은 주저하거나 멈추지 않고 그에 대해 고려합니다…