Gemini 3 Pro, 블라인드 테스트에서 신뢰도 69% 기록 (Gemini 2.5는 16%): 실제 세계 신뢰를 기준으로 AI를 평가해야 하는 이유, 학술 벤치마크가 아니라
발행: (2025년 12월 4일 오전 07:00 GMT+9)
1 min read
원문: VentureBeat
Source: VentureBeat
Gemini 3 Evaluation
불과 몇 주 전, 구글은 Gemini 3 모델을 공개하며 여러 AI 벤치마크에서 리더십 위치를 차지했다고 주장했습니다. 하지만 벤더가 제공하는 벤치마크의 문제점은 바로 그것—벤더가 제공한다는 점입니다.
그러나 Prolific의 새로운 벤더 중립 평가에서는 Gemini 3을 …