AI benchmarks

2주 전 · ai

2026년에 개발자들이 물어볼 지속 가능한 AI 벤치마크

!2026년에 개발자들이 물어볼 지속 가능한 AI 벤치마크를 위한 표지 이미지 https://media2.dev.to/dynamic/image/width=1000,height=420,fit=cover,gravity=aut...

#sustainable AI #AI benchmarks #model evaluation #AI ethics #carbon footprint #AI development #2026 trends
1개월 전 · ai

GPT-5.2와 함께 과학 및 수학 발전

GPT‑5.2는 OpenAI의 수학·과학 분야에서 가장 강력한 모델로, GPQA Diamond와 FrontierMath와 같은 벤치마크에서 새로운 최첨단 결과를 달성했습니다. 이 게시물은…

#GPT-5.2 #OpenAI #math AI #scientific research #GPQA Diamond #FrontierMath #large language models #AI benchmarks
1개월 전 · ai

70% 사실성 한계: 구글의 새로운 ‘FACTS’ 벤치마크가 기업 AI에 주는 경고

다양한 유용한 기업 작업을 수행하는 데 있어 주어진 모델의 성능과 정확성을 측정하도록 설계된 generative AI 벤치마크가 부족하지 않다.

#AI benchmarks #factuality #enterprise AI #Google FACTS #generative AI evaluation #model accuracy
1개월 전 · ai

Amazon의 AI 벤치마크는 중요하지 않다는 베팅

Rohit Prasad, Amazon의 AGI SVP. 이것은 Alex Heath가 쓴 Sources의 발췌이며, AI와 기술 산업에 관한 뉴스레터로, The Verge 구독자를 위해 독점 제공됩니다.

#Amazon #AI benchmarks #model evaluation #AGI #machine learning #industry perspective