EUNO.NEWS EUNO.NEWS
  • All (19188) +23
  • AI (2997) +1
  • DevOps (879) +1
  • Software (9726) +18
  • IT (5540) +3
  • Education (45)
  • Notice (1)
  • All (19188) +23
    • AI (2997) +1
    • DevOps (879) +1
    • Software (9726) +18
    • IT (5540) +3
    • Education (45)
  • Notice (1)
  • All (19188) +23
  • AI (2997) +1
  • DevOps (879) +1
  • Software (9726) +18
  • IT (5540) +3
  • Education (45)
  • Notice (1)
Sources Tags Search
한국어 English 中文
  • 1주 전 · ai

    당신의 모델 선택은 생각만큼 크게 중요하지 않아요... 그리고 그게 실제로 좋은 소식입니다

    소개 나는 트위터에서 이 연구에 대해 읽었고 계속 생각을 멈출 수 없었다. 2009년에 신경과학자들은 죽은 대서양 연어를 fMRI 스캐너에 넣었다, sh...

    #model evaluation #LLM benchmarks #null models #AlpacaEval #machine learning reproducibility #baseline comparisons
  • 1주 전 · ai

    [Paper] Code Generation Benchmarks의 대표성 평가 및 개선: Programming Languages의 Knowledge Units(KUs) 활용 -- Empirical Study

    GPT-4, Claude, LLaMA와 같은 대형 언어 모델(LLMs)은 코드 생성에서 인상적인 성능을 보여주었으며, 일반적으로 벤치마크(예: H…)를 사용하여 평가됩니다.

    #code generation #LLM benchmarks #knowledge units #Python #evaluation methodology
EUNO.NEWS
RSS GitHub © 2026