EUNO.NEWS EUNO.NEWS
  • All (2352) +197
  • AI (546) +17
  • DevOps (141) +1
  • Software (988) +123
  • IT (672) +55
  • Education (5) +1
  • Notice
  • All (2352) +197
    • AI (546) +17
    • DevOps (141) +1
    • Software (988) +123
    • IT (672) +55
    • Education (5) +1
  • Notice
  • All (2352) +197
  • AI (546) +17
  • DevOps (141) +1
  • Software (988) +123
  • IT (672) +55
  • Education (5) +1
  • Notice
Sources Tags Search
한국어 English 中文
  • 1天前 · ai

    Gemini 3 Pro 在盲测中获得 69% 的信任度,较 Gemini 2.5 的 16% 提升:评估 AI 的真实世界信任而非学术基准的必要性

    就在几周前,Google 推出了 Gemini 3 模型,声称它在多个 AI 基准中取得了领先地位。但供应商面临的挑战是……

    #Gemini 3 #trustworthiness #AI evaluation #benchmarking #large language models #Google AI #Prolific study
  • 2天前 · ai

    我放了一个测试,5/6 的 SOTA LLM 直接掉裤子

    我一直在研究的假设是,是什么让一个实体“深度”智能——不仅仅是聪明或有能力,而是以超越 pa… 的方式理解现实。

    #LLM #prompt engineering #AI evaluation #persona prompting #sales pitch test #analogical reasoning
EUNO.NEWS
RSS GitHub © 2025