evaluation methodology | EUNO.NEWS

1周前 · ai

[Paper] 评估并改进代码生成基准的代表性：使用编程语言的知识单元（KUs）——实证研究

大型语言模型（LLMs），如 GPT-4、Claude 和 LLaMA，在代码生成方面表现出色，通常使用基准测试（例如 H…）进行评估。

#code generation #LLM benchmarks #knowledge units #Python #evaluation methodology