1周前 · ai [Paper] 评估并改进代码生成基准的代表性:使用编程语言的知识单元(KUs)——实证研究 大型语言模型(LLMs),如 GPT-4、Claude 和 LLaMA,在代码生成方面表现出色,通常使用基准测试(例如 H…)进行评估。