[Paper] 重新审视不同难度水平的泛化:并非那么容易
发布: (2025年11月27日 GMT+8 02:59)
2 min read
原文: arXiv
Source: arXiv - 2511.21692v1
Overview
我们研究大型语言模型(LLM)在不同任务难度上的泛化能力,这对于有效的数据策划和评估是一个关键问题。现有研究对是使用更容易还是更困难的数据进行训练能够获得更好结果,以及这些提升是体现在更容易还是更困难的测试数据上,结论并不统一。
为了解答这一问题,我们对 LLM 在模型、数据集以及细粒度难度分组上的泛化进行系统评估。我们使用数千种不同 LLM 的输出以及项目反应理论(Item Response Theory,IRT)——一种在教育测评中广泛使用的难度度量——对六个数据集中的示例进行排序。与以往工作不同,我们的难度评级仅基于众多 LLM 的能力,未引入人为的难度判断。
通过更客观、规模更大且更细致的分析,我们发现跨难度的泛化往往受限;无论是使用容易数据还是困难数据进行训练,都难以在整个难度范围内实现一致的提升。这些结果强调了在 LLM 的训练和评估数据中包含多种难度的重要性,且在难度方面走捷径是有风险的。
Authors
- Yeganeh Kordi
- Nihal V. Nayak
- Max Zuo
- Ilana Nguyen
- Stephen H. Bach
Categories
- cs.CL
- cs.AI
Paper Information
- arXiv ID: 2511.21692v1
- Published: November 27, 2025
- PDF: Download PDF