[논문] 이력·모델이 LLM 채점에 미치는 영향: 고급 소프트웨어 공학 강좌 연구
개요
대학원 수준의 연구 보고서 채점 평가는 교육자에게 큰 노동 부담을 안겨줍니다. 대형 언어 모델(LLM)이 학업 평가 자동화에 큰 잠재력을 가지고 있지만, 특히 채점 일관성 측면에서 이 특수 작업에 대한 신뢰성은 충분히 연구되지 않았으며, 일관성 부족은 교육 공정성에 대한 주요 장애물입니다. 본 논문은 인간과 정렬된 LLM 보조 채점 워크플로우를 제안하고, 대학원 고급 소프트웨어 공학 과목에서 180개의 학생 제출물을 대상으로 한 사례 연구를 제시합니다. 우리는 두 가지 주류 LLM인 Grok과 GPT를 채점 일관성 및 인간 점수와의 정렬성 측면에서 평가합니다. 연구 결과, LLM은 모델 내부 일관성 수준이 서로 다르고 모델 간 채점 불일치가 크게 나타나며, 단순 앙상블 방법으로는 인간 평가와의 정렬성을 향상시킬 수 없음을 발견했습니다. 특히, 지속적인 상호작용 이력이 모델의 채점 기준을 인간 전문가 점수에서 점진적으로 벗어나게 하는 체계적 드리프트를 초래합니다. 우리의 발견은 LLM이 대학원 교육에서 교육자의 채점 업무 부담을 줄이는 잠재력을 보여주는 동시에, 무분별한 LLM 채점이 시스템적 불공정성을 초래할 수 있음을 강조합니다. 따라서 이러한 격차를 완화하기 위한 구체적인 운영 방안이 필요합니다.
주요 기여
본 논문은 다음 분야의 연구를 다룹니다:
- cs.SE
- cs.AI
- cs.CL
방법론
자세한 방법론은 전체 논문을 참고하십시오.
실용적 함의
이 연구는 cs.SE 분야의 발전에 기여합니다.
저자
- Qilin Zhou
- Zhuo Wang
- Yue Li
- W. K. Chan
논문 정보
- arXiv ID: 2606.08400v1
- 분류: cs.SE, cs.AI, cs.CL
- 발표일: 2026년 6월 7일
- PDF: PDF 다운로드