[Paper] 重新审视不同难度水平的泛化：并非那么容易

发布: 2个月前 (2025年11月27日 GMT+8 02:59)

2 分钟阅读

原文: arXiv

Source: arXiv - 2511.21692v1

Overview

我们研究大型语言模型（LLM）在不同任务难度上的泛化能力，这对于有效的数据策划和评估是一个关键问题。现有研究对是使用更容易还是更困难的数据进行训练能够获得更好结果，以及这些提升是体现在更容易还是更困难的测试数据上，结论并不统一。

为了解答这一问题，我们对 LLM 在模型、数据集以及细粒度难度分组上的泛化进行系统评估。我们使用数千种不同 LLM 的输出以及项目反应理论（Item Response Theory，IRT）——一种在教育测评中广泛使用的难度度量——对六个数据集中的示例进行排序。与以往工作不同，我们的难度评级仅基于众多 LLM 的能力，未引入人为的难度判断。

通过更客观、规模更大且更细致的分析，我们发现跨难度的泛化往往受限；无论是使用容易数据还是困难数据进行训练，都难以在整个难度范围内实现一致的提升。这些结果强调了在 LLM 的训练和评估数据中包含多种难度的重要性，且在难度方面走捷径是有风险的。

Authors

Yeganeh Kordi
Nihal V. Nayak
Max Zuo
Ilana Nguyen
Stephen H. Bach

Paper Information

arXiv ID: 2511.21692v1
Published: November 27, 2025
PDF: Download PDF

[Paper] 重新审视不同难度水平的泛化：并非那么容易

Overview

Authors

Categories

Paper Information

相关文章

[Paper] ThetaEvolve：测试时学习在开放问题上

[Paper] MegaChat：合成波斯语问答数据集用于高质量销售聊天机器人评估

[Paper] 通过结构化知识发现方法提升语言模型生成的可解释性

[Paper] 每个 Token 都很重要：在大型语言模型中推广 16M 超长上下文