EUNO.NEWS EUNO.NEWS
  • All (2328) +189
  • AI (543) +17
  • DevOps (137) +1
  • Software (976) +118
  • IT (666) +52
  • Education (5) +1
  • Notice (1)
  • All (2328) +189
    • AI (543) +17
    • DevOps (137) +1
    • Software (976) +118
    • IT (666) +52
    • Education (5) +1
  • Notice (1)
  • All (2328) +189
  • AI (543) +17
  • DevOps (137) +1
  • Software (976) +118
  • IT (666) +52
  • Education (5) +1
  • Notice (1)
Sources Tags Search
한국어 English 中文
  • 1일 전 · ai

    Gemini 3 Pro, 블라인드 테스트에서 신뢰도 69% 기록 (Gemini 2.5는 16%): 실제 세계 신뢰를 기준으로 AI를 평가해야 하는 이유, 학술 벤치마크가 아니라

    불과 몇 주 전, Google은 Gemini 3 모델을 공개하며 여러 AI 벤치마크에서 리더십 위치를 차지했다고 주장했습니다. 하지만 vendor와의 과제는…

    #Gemini 3 #trustworthiness #AI evaluation #benchmarking #large language models #Google AI #Prolific study
  • 2일 전 · ai

    내가 테스트를 내면, 6개의 SOTA LLMs 중 5개가 바지를 벗는다

    제가 연구하고 있는 가설은 어떤 실체가 ‘깊이’ 지능적이게 만드는 요인이 무엇인가 하는 것입니다—단순히 똑똑하거나 능력이 뛰어난 것이 아니라, 현실을 초월하는 방식으로 이해하는 것…

    #LLM #prompt engineering #AI evaluation #persona prompting #sales pitch test #analogical reasoning
EUNO.NEWS
RSS GitHub © 2025