[Paper] AI辅导可以安全且有效地支持学生：在英国课堂的探索性RCT

发布: 1周前 (2025年12月30日 GMT+8 01:44)

7 min read

原文: arXiv

Source: arXiv - 2512.23633v1

概述

一项近期的探索性随机对照试验（RCT）考察了经过教学微调的生成式 AI 导师 LearnLM，是否能够在英国中学数学课堂上提供与人类导师相同（或更好）的学习成果。通过将模型嵌入聊天界面，并让专家导师监督其回复，研究表明，AI 驱动的辅导在规模化时既安全又有效。

Pedagogical fine‑tuning: 展示了一种系统方法，将大型语言模型（LLM）适配用于课堂级别的辅导。
Human‑in‑the‑loop supervision: 导师在发送前审阅 AI 生成的消息，实现了 76.4 % 的“最小编辑”率。
Empirical performance: 受 LearnLM 帮助的学生表现与仅接受人工辅导的同龄人持平，甚至在某些情况下表现更佳（在新题目上的成功率高出 5.5 个百分点）。
Socratic questioning capability: 导师报告称 LearnLM 在生成引导性提问方面表现出色，能够深化学生的推理。
Bidirectional learning: 人类导师表示他们从模型的建议中学到了新的教学技巧。

Source: …

参与者与场景 – 来自英国五所中学的 165 名学生被随机分配到以下两组之一：
- AI 辅助辅导（LearnLM + 人类监督）
- 仅人类辅导（传统一对一聊天）。
技术栈 – LearnLM 基于大规模 Transformer 模型构建，随后在精心挑选的数学辅导对话、反馈循环和苏格拉底式提问模式语料库上进行微调。
监督工作流 – 对每个学生提问，LearnLM 先草拟一个回答。随后由人类导师进行批准（零或最少编辑）或在发送前进行编辑。此方式在保证互动安全的同时，让 AI 负责大部分内容生成。
评估 – 学习成果通过以下方式衡量：
- 对目标主题的即时解题准确率。
- 对下一个主题中新颖题目的迁移表现。
- 关于互动质量的导师定性访谈。
统计分析 – 使用混合效应逻辑回归评估成功率差异，以考虑课堂聚类和个人能力差异。

指标	AI 辅助 (LearnLM)	仅人工	影响
批准率（≤2字符编辑）	76.4 %	N/A	表明 AI 草稿的高保真度
针对性问题的成功率	≈ same as human	—	无退化
新颖问题（下一个主题）的成功率	66.2 %	60.7 %	+5.5 pp（统计显著）
导师满意度（定性）	Positive – praised Socratic prompts	—	导师认为 AI 对教学价值有贡献

关键要点： LearnLM 能可靠地生成需要极少人工修正的辅导内容，其苏格拉底式的提问方式可能提升学生将知识迁移到新问题的能力。

对于有兴趣尝试 AI 驱动辅导的开发者而言，核心结论是：经过精细调优的 LLM 与轻量级的人机交互（human‑in‑the‑loop）工作流相结合，能够提供符合教学原则、可扩展的支持——为实现更经济、个性化的大规模教育打开了大门。