evaluation methodology

1주 전 · ai

[Paper] Code Generation Benchmarks의 대표성 평가 및 개선: Programming Languages의 Knowledge Units(KUs) 활용 -- Empirical Study

GPT-4, Claude, LLaMA와 같은 대형 언어 모델(LLMs)은 코드 생성에서 인상적인 성능을 보여주었으며, 일반적으로 벤치마크(예: H…)를 사용하여 평가됩니다.