[Paper] 自主 LLM 生成的学生练习反馈（入门软件工程课程）

发布: 1天前 (2026年4月23日 GMT+8 01:34)

7 分钟阅读

原文: arXiv

Source: arXiv - 2604.20803v1

Overview

该论文介绍了 NAILA，一个自主反馈系统，利用大型语言模型（LLMs）对入门软件工程课程的学生提交进行评分和评论。通过提供全天候、AI 驱动的反馈，NAILA 旨在缓解因班级规模不断扩大和教学人员有限而导致的瓶颈，同时仍保持评估与教师定义的解答保持一致。

Model‑solution authoring – 教师为每个练习创建参考解答，并用评分标准进行标注。
Prompt template design – 作者们制作一套提示模板，将参考解答、评分标准和学生提交的作业嵌入其中，指示大型语言模型（如 GPT‑4）生成反馈报告。
System integration – NAILA 被封装在一个网页界面中，能够接受常见文档格式（纯文本、PDF、Jupyter Notebook），并即时返回大型语言模型的输出。
Empirical evaluation – 在一个学期内，学生可以自愿使用 NAILA。研究者收集了日志（使用频率、时长）、调查问卷回复（感知有用性、易用性、自我报告的学习情况）以及学业表现数据（在相同练习中有人类反馈与 AI 反馈的成绩）。使用统计分析方法（ANOVA、回归）来回答四个研究问题。

Motivation：感到时间紧迫或需要即时澄清的学生是最积极的采用者；对 AI 准确性持怀疑态度的学生则倾向于回避 NAILA。
User acceptance：系统在感知有用性（平均 4.2/5）和易用性（4.0/5）上得分较高。学习者报告自评理解度有适度但统计显著的提升（≈ +0.3 分，满分 5 分的李克特量表）。
Engagement patterns：平均而言，学生每周访问 NAILA 2.7 次，使用高峰出现在作业截止前。反馈延迟始终保持在 30 秒以内。
Academic impact：经常使用 NAILA 的学生相较仅依赖人工助教反馈的同伴，成绩略高（≈ 2 个百分点）。在控制了先前 GPA 和出勤率后，这一差异仍然存在。

可扩展的辅导：高校可以部署类似 NAILA 的服务，以在不增加额外人员的情况下扩展教师的教学能力，尤其适用于大规模的入门课程。
持续学习循环：即时的 AI 反馈鼓励学生进行迭代改进——学生可以在现场纠正错误，而无需等待数天才能收到助教的批注。
工具集成：由于 NAILA 支持开放文档格式，它可以嵌入现有的 LMS（如 Moodle、Canvas）或 IDE 插件，使开发者和教育工作者的采纳过程毫无阻力。
数据驱动的课程调整：汇总的反馈日志揭示常见的误解，帮助教师调整课堂内容或创建有针对性的补救材料。
成本效益：利用按 token 计费的 LLM API 可以比扩展人工评分团队更省钱，尤其是在对相似解答进行缓存以重复使用提示时。

LLM reliability：系统有时会给出过于笼统甚至不正确的反馈，尤其是针对提示模板未覆盖的边缘案例代码模式。
Domain scope：本研究聚焦于入门软件工程主题；若要扩展到高级算法或系统级设计，可能需要更丰富的提示以及更具领域针对性的微调。
Student bias：自我选择（学生自愿加入 NAILA）可能会混淆观察到的成绩提升；随机对照试验将有助于强化因果推断。
Ethical considerations：依赖 AI 反馈会引发学术诚信和对黑箱工具过度依赖的问题——未来工作应探索透明机制（例如展示 LLM 的推理轨迹）。

Bottom line: NAILA 证明了基于 LLM 的随需反馈能够显著增强大规模软件工程课程的传统教学，为希望利用生成式 AI 实现可扩展教育的机构提供了实用蓝图。