[Paper] 난이도 수준별 일반화 재검토: 그렇게 쉽지는 않다
Source: arXiv - 2511.21692v1
Overview
우리는 대형 언어 모델(LLM)이 서로 다른 과제 난이도에 대해 얼마나 잘 일반화되는지를 조사합니다. 이는 효과적인 데이터 큐레이션 및 평가를 위해 핵심적인 질문입니다. 기존 연구는 쉬운 데이터와 어려운 데이터 중 어느 쪽을 학습에 활용하는 것이 더 나은 결과를 가져오는지, 그리고 그 향상이 쉬운 테스트 데이터에 나타나는지 어려운 테스트 데이터에 나타나는지에 대해 일관되지 않은 결론을 제시하고 있습니다.
이 질문에 답하기 위해 우리는 모델, 데이터셋, 그리고 세밀한 난이도 그룹에 걸친 LLM의 일반화를 체계적으로 평가했습니다. 우리는 여섯 개 데이터셋의 예시들을 수천 개의 서로 다른 LLM 출력과 교육 평가에서 널리 사용되는 난이도 지표인 Item Response Theory (IRT)를 이용해 순위화했습니다. 기존 연구와 달리, 우리의 난이도 평가는 인간의 난이도 인식을 배제하고 오로지 다양한 LLM들의 능력에 의해 결정됩니다.
보다 객관적이고 대규모이며 세분화된 분석을 통해, 난이도 간 일반화가 종종 제한적이며, 쉬운 데이터든 어려운 데이터든 학습에 사용한다고 해서 전체 난이도 범위에서 일관된 개선을 달성할 수 없다는 것을 보여줍니다. 이러한 결과는 LLM을 위한 훈련 및 평가 데이터에 다양한 난이도를 포함시키는 것이 중요함을 강조하며, 난이도에 대한 단순화된 접근은 위험할 수 있음을 시사합니다.
Authors
- Yeganeh Kordi
- Nihal V. Nayak
- Max Zuo
- Ilana Nguyen
- Stephen H. Bach
Categories
- cs.CL
- cs.AI
Paper Information
- arXiv ID: 2511.21692v1
- Published: November 27, 2025
- PDF: Download PDF