[Paper] MalruleLib:大规模可执行误解推理与步骤追踪用于建模学生数学思维

发布: (2026年1月7日 GMT+8 01:59)
7 min read
原文: arXiv

Source: arXiv - 2601.03217v1

Overview

本文提出了 MalruleLib,一个将已记录的数学误解转化为 可执行 过程(称为 “malrules”)并自动生成正确与错误推理的逐步追踪的新框架。通过此方法,作者创建了一个庞大的合成数据集,使语言模型能够在核心学生建模任务上进行评估:给定一个错误的解答,推断其背后的误解并预测学生的下一个答案——即使问题的表述不同。

关键贡献

  • Executable Misconception Library – 101 条 “malrules”,来源于 67 篇学习科学和数学教育文献,每条都以对正确解答的程序化转换形式编码。
  • Parameterized Problem Templates – 498 个问题模板(例如线性方程、分数),可用随机数字实例化,生成 >1 M 对正确解答与符合 malrule 的错误过程。
  • Formal Task Definition (MRA)Malrule Reasoning Accuracy 衡量模型的能力:(1) 从单一错误中识别出正确的 malrule;(2) 在跨模板改写的情况下预测学生的下一个答案。
  • Comprehensive Empirical Study – 对九种大型语言模型(4 B 到 120 B 参数)进行评估,显示准确率从 66 %(直接解题)急剧下降至约 40 %(跨模板误概念预测)。
  • Open‑Source Release – 完整库、生成脚本和评估基准已公开发布,供教育‑AI 社区使用。

方法论

  1. 知识策划 – 作者从 67 本教材、研究论文和课程指南中挖掘出常见的代数误解(例如,在解分数时“将两边同时乘以分母”)。
  2. Malrule 编码 – 将每个误解表达为一个确定性程序,该程序接受正确的解题轨迹并将其重写为 malrule‑consistent 轨迹。这样错误可复现且可组合。
  3. 模板参数化 – 定义了一套 498 种问题模式(例如 “求 x:a·x + b = c”),其中包含数值系数的占位符。随机抽样填充这些占位符,生成数百万个唯一实例。
  4. 双路径轨迹生成 – 对每个实例化问题,系统生成两条并行的逐步解答:(a) 数学上正确的推理链,和 (b) 遵循选定 malrule 的推理链。
  5. 评估协议 (MRA) – 模型接收一条错误的步骤轨迹,并必须 (i) 分类出是哪条 malrule 生成的,以及 (ii) 为同一结构的 重新表述 版本(不同模板但相同底层结构)输出学生的下一步。
  6. 基线模型 – 对九个基于 Transformer 的大语言模型(参数规模从 4 B 到 120 B)进行微调,使用生成的数据进行训练,并在保留集上进行测试。

结果与发现

模型规模直接问题求解准确率跨模板 MRA 准确率
4 B61 %35 %
13 B68 %42 %
30 B70 %44 %
120 B73 %48 %
  • 跨模板降级 10–21 % 在所有规模上保持一致,表明当前 LLM 在抽象错误背后的过程时仍然困难。
  • 提供完整的步骤追踪(而非仅最终答案)可将 MRA 提升 3–15 %,证实中间推理是有价值的信号。
  • 合成库实现了受控实验:更换一个 malrule 为另一个会导致性能可预测地变化,说明该基准能够隔离概念误解推理,而不是表层词汇线索。

Practical Implications

  • Intelligent Tutoring Systems (ITS) 可以将 MalruleLib 接入其推理引擎,从单个错误诊断学生的误概念,然后生成针对性提示,解决其根本的错误过程。
  • Developer Toolkits – 该库的 API 允许开发者生成带有特定误概念的自定义题集,适用于训练或评估领域特定的 LLM(例如,需要理解用户错误的代码助手)。
  • Curriculum Analytics – 教育平台可以汇总整个群体的推断误概念分布,以发现系统性缺口(例如,“大多数学生在二次展开时误用分配律”)。
  • Feedback Loop for Model Fine‑Tuning – 通过在现有数学问答数据集上加入符合误概念的轨迹,开发者可以教会模型预判学生错误,从而提升答案检查和自动评分流水线的鲁棒性。
  • Cross‑Domain Transfer – 由于误概念是可执行的,同一方法可迁移到其他 STEM 领域(物理问题求解、编程调试),加速误概念感知 AI 助手的构建。

限制与未来工作

  • Synthetic vs. Real Data – 虽然该库覆盖了许多教材中的误解,但真实课堂数据可能包含混合或未记录的错误,未被捕获。
  • Scalability of Malrule Curation – 将范围从代数扩展到更高层次的主题(微积分、统计学)将需要额外的领域专业知识和手动编码。
  • Model Generalization – 即使是最大的 120 B 模型仍未达到人类水平的 MRA,这表明需要在架构或训练目标上进行改变(例如,显式的过程推理模块)。
  • User Interaction Studies – 论文未评估真实学习者对基于 malrule 的反馈的反应;未来工作应在实时辅导环境中进行 A/B 测试。

MalruleLib 为 AI 开辟了新道路,使其不仅能解答数学题,还能理解学生出错的系统性方式。对于构建下一代教育工具的开发者而言,它提供了一个即用、可扩展的基底,用于训练、评估和部署具备误解感知的语言模型。

作者

  • Xinghe Chen
  • Naiming Liu
  • Shashank Sonkar

论文信息

  • arXiv ID: 2601.03217v1
  • 分类: cs.CL
  • 发布日期: 2026年1月6日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »