理解 AI 与学习成果

发布: (2026年3月4日 GMT+8 08:00)
17 分钟阅读

Source: OpenAI Blog

Introduction

教育是人工智能最有前景的前沿领域之一。 借助 ChatGPT 等工具,个性化学习支持可以随时随地为任何学生提供。

但教育领域对 AI 对学习成果的影响仍处于早期了解阶段。去年,我们的团队开始研究像 Study Mode 这样的工具的使用,并发现学生表现有令人鼓舞的提升。我们的研究还提出了一个重要问题:我们如何评估 AI 随时间对学习者进步的影响,而不仅仅是期末考试的成绩?

这是一个更广泛的生态系统挑战。迄今为止,大多数研究方法侧重于狭窄的绩效信号——例如考试分数——且缺乏评估学生在真实世界环境中如何使用 AI 学习以及这种使用如何随时间塑造结果的能力。

为弥补这一空白,我们开发了 学习成果测量套件(Learning Outcomes Measurement Suite),该框架与爱沙尼亚塔尔图大学以及斯坦福学习加速器的 SCALE Initiative 合作创建,旨在支持跨不同教育情境的学习成果纵向测量。

目前正通过随机对照试验进行广泛验证,未来还计划与 Learning Lab(OpenAI 的学习研究生态系统)中的创始组织合作开展进一步研究,合作方包括亚利桑那州立大学、UCL 知识实验室和 MIT 媒体实验室(基于先前的合作研究)。

今天,我们分享测量套件的工作概览以及其重要性。随着时间推移,我们计划发布更多研究成果,并将该套件作为公共资源向全球的学校、大学和教育系统开放。

“这项研究让我们能够快速学习,同时为深入理解 AI 如何以真正重要的方式在学校中审慎整合奠定基础。我们希望了解这些工具如何支持严格的学术学习,同时培养高阶思维、创造力、好奇心以及学生对自身学习者身份的信心。”
– Susanna Loeb,教育学教授、斯坦福大学 SCALE Initiative 教职主任

Summary of takeaways

  • 当今关于 AI 对学习影响的研究方法显示出绩效方面的有希望信号,但它们并未完整捕捉 AI 随时间对学习成果的全貌。
  • 学习成果测量套件(Learning Outcomes Measurement Suite)将首次提供一个标准框架,用于纵向研究,帮助教育工作者、研究者和机构了解 AI 在不同情境下如何塑造学习及其成果。
  • OpenAI 的 Learning Lab 是一个致力于推进此项工作的全新研究生态系统。OpenAI 将与一系列合作伙伴共同发布研究成果,随着该领域的持续发展。

起源与早期研究

当学生使用 AI 工具进行学习时,可能涉及许多不同的情形——从快速查找答案到在类似导师的指导下逐步解决问题。为了鼓励用户以支持更深入理解和技能培养的方式使用 ChatGPT,OpenAI 在去年推出了 Study Mode(学习模式)。在其背后,学习模式由我们与教师、科学家和教学法专家合作编写的自定义系统指令驱动,这些指令体现了一套核心行为,旨在通过支架、理解检查和引导练习来支持真正的学习,而不仅仅是提供答案。

为了检验这种符合教学原则的 AI 交互方式是否能够转化为更好的学习成果,我们对 300 多名准备神经科学和微观经济学考试的大学生进行了一项随机研究。虽然分析仍在进行中,初步结果让我们有信心认为,通过诸如学习模式等功能鼓励的符合教学原则的 AI 交互方式可以提升学习成果。这项研究还揭示了一个重要现实:真正关键的是这些收益以及相关的生产性行为是否能够随时间保持持久。

研究设计

参与者被分配到以下三组之一:

  1. 对照组 – 使用传统在线资源(Google 搜索、YouTube)学习,且 AI 生成的概览功能被禁用。
  2. 学习模式变体 A – 使用一种旨在引导学生完成学习过程的学习模式版本。
  3. 学习模式变体 B – 使用略有不同的学习模式变体。

在实验前收集基线测验和入职调查,以校正先前课程接触、学习习惯、学术自信以及对 AI 工具的熟悉程度等差异。学生在每次考试前完成计时的学习模式会话,两种变体在不同学科之间交叉平衡。

该设置旨在反映真实的学习环境,而非严格受控的实验室条件。参与并不与考试成绩挂钩,且并非所有学生在名义上的 40 分钟会话中都同等使用学习模式。这使我们能够衡量并报告 意向治疗(ITT) 效应——即在真实推广条件下提供工具访问的影响——并承认实际参与度可能有所不同。

研究发现

成绩分别在每场考试上进行测量。改进在不同学科间并不均匀,且学生对学习模式的使用程度也各不相同。

  • 神经科学(主要 ITT) – 与对照组相比,我们观察到学习模式方向上呈正向差异,但结果在统计上并未显著区别于使用传统在线资源学习的学生。一些入职和技术问题影响了使用学习模式学生的学习时间。
  • 微观经济学(主要 ITT) – 与对照组相比,获得学习模式访问权限的参与者在考试成绩上表现出显著提升。

完整的统计结果将在即将发表的同行评审论文中共享。

获得学习模式访问权限的学生与未使用 AI 的对照组学生的表现——分数大约高出 15 %。

学习模式(变体 A 与 B) vs. 对照组(无 AI 组):调整后的平均考试分数

当我们分别将每个学习模式变体与对照组比较时,效果保持一致。

虽然这反映了真实世界的差异,但也凸显了对学习成果测量的一个更深层限制。

大多数现有评估方法依赖于在短时间窗口内对固定干预进行评估,使用测试分数或最终论文等结果作为主要信号。这些方法并未设计来捕捉 AI 在实践中影响学习的核心机制:伴随学习者自身策略、偏好和学习习惯不断演进的持续、个性化交互。也无法捕捉……

评估在一种能力(例如短期记忆)上的提升是否可能伴随其他能力(例如持久性、自主动机或创造性问题解决)的权衡。结果是,它们忽视了决定 AI 是否真正提升学习的长期认知效应。

由于学习环境在不同国家、课程和机构目标之间差异巨大,单次研究的结果很少能够在不同系统之间推广。测量方法因此必须足够灵活,以适应不同教育系统的需求:

  • 确定在其情境中成功的定义
  • 根据自身标准评估 AI
  • 相应地进行迭代

构建更好的测量系统

基于 OpenAI Study Mode 研究的经验,我们一直在构建一个 结构化测量系统,用于大规模评估 AI 对学习者的影响,并创建一种基于这些结果改进模型的机制。该系统以三类信号为基础——模型的行为、学习者的响应以及随时间产生的可测量认知结果。系统包括:

组件描述
系统指令以细化模型行为使用自然语言改变模型的默认行为,使其与特定的教学方法保持一致。
学习交互分类器自动检测真实、去标识化的学习者‑模型交互中的 “学习时刻”,并标记诸如参与度和错误纠正等显著特征。
学习质量评分器通过学习者是否达成目标以及交互在多大程度上遵循强有力的教学原则(包括识别失败模式)来评估并打分每个学习时刻。
纵向学习评分器跟踪同一学习者随时间与模型交互的变化——包括参与度、坚持度和元认知策略——在个人和群体层面进行分析。
标准化认知与元认知测量通过 ChatGPT 在前/中/后访问时提供的经验证的第三方工具,建立基线并衡量批判性思维、创造力、记忆等基础能力的变化。

将上述要素组合在一起时,我们将该测量系统称为 Learning Outcomes Measurement Suite(学习成果测量套件)

套件产出

  • 学习时刻的结构化视图
  • 展示不同群体随时间结果变化的仪表盘
  • 对照教学和辅导评分标准的模型表现指示器
  • 与标准化评估和简短学习者问卷对齐的结果测量

在有可用数据时,套件可以整合合作伙伴提供的真实标签,如考试成绩、课堂观察或出勤记录。所有数据均为 去标识化

跟踪的更深层认知影响

  • 自主动机 – 学习者自行规划学习的程度,而非被模型指令驱动
  • 高效参与 – 教学交互的频率、种类和质量
  • 任务坚持 – 学习者面对认知挑战时的坚持程度
  • 元认知 – 学习者计划、反思和监控学习方法的频率和质量
  • 回忆 – 学习者从先前交互中记忆内容的准确性

这体现了我们整体努力的方向:超越狭义的学习成果定义(例如提升考试分数),转向支撑学习的整体能力。我们也认识到没有万能方案;系统和教育者需要获得赋能,以在符合教学最佳实践的前提下进行权衡和决策。

我们的下一步

我们正在通过大规模研究验证学习成果测量套件(Learning Outcomes Measurement Suite),随后再将其广泛提供。此工作正与塔尔图大学(University of Tartu)以及斯坦福的 SCALE 计划(SCALE Initiative)合作开展,面向包括爱沙尼亚在内的国家级合作伙伴进行研究,套件已在 近 20,000 名 16‑18 岁学生 中进行数月的跟踪研究。学生的使用将与当地领导者紧密合作,以确保安全并与当地课程保持一致。

“爱沙尼亚一直把教育视为一个不断改进的系统,而不是静态的东西。随着人工智能成为其中的一部分,关键问题是我们如何衡量 AI 对学习的长期影响。这正是我们与 OpenAI 合作正在弄清楚的。学生们热衷于参与开发过程,许多人想了解如何用 AI 支持学习。这感觉像是一个真正的转折点,我们很高兴能够贡献出其他教育系统可以复用和进一步构建的方法。”
Jaan Aru,塔尔图大学(University of Tartu)

这项工作基于正在进行的更广泛的协作研究。除了通过创始合作伙伴在 L… (文本被截断)

学习实验室

OpenAI 正在支持学习与劳动交叉领域的研究——审视 AI 如何影响学生的学术路径、职业决策,以及机构如何支持负责任的采用。这项研究正在以下机构进行:

  • Bocconi University
  • Innova Schools
  • Tuck School of Business at Dartmouth
  • San Diego State University
  • Stony Brook University
  • …以及其他院校

随着我们对学生如何在 AI 环境中最佳学习进行长期研究,我们计划分享研究成果,并与更广泛的教育生态系统合作,确保 AI 能惠及所有学习者。

有兴趣接收此项工作更新的人员可以在 这里 注册。

0 浏览
Back to Blog

相关文章

阅读更多 »

[论文] SimpliHuMoN: 简化人体动作预测

Human motion prediction 将轨迹预测(trajectory forecasting)和人体姿态预测(human pose prediction)这两个任务结合在一起。针对这两个任务,已经开发了专门的模型……