[Paper] SymPyBench:用于科学推理的可执行 Python 代码的动态基准

发布: (2025年12月6日 GMT+8 02:50)
8 min read
原文: arXiv

Source: arXiv - 2512.05954v1

概览

一个名为 SymPyBench 的新基准将超过 15 k 条大学水平的物理题目交到 AI 研究者手中。每道题目都完全参数化,并配有逐步推理 以及 可执行的 Python(SymPy)代码,能够为任意参数组合生成精确答案。通过将静态教材题目转化为动态、代码驱动的任务,作者为开发者提供了一种全新的方式来测试和提升大语言模型(LLM)的科学推理能力。

主要贡献

  • 大规模、合成的物理套件 – 15,045 道题目,涵盖力学、电磁学、热力学等,采用 90/10 的训练‑测试划分。
  • 可参数化实例 – 每道题目由符号变量定义,能够产生实际上无限数量的具体变体。
  • 三种答案格式 – MC‑Symbolic、MC‑Numerical 和自由形式,每种格式考察不同的推理能力。
  • 可执行的真实答案 – 每道题目附带 SymPy 代码,可在任意参数设置下计算正确解,保证答案可复现。
  • 新评估指标 – 一致性得分(Consistency Score)、失败率(Failure Rate)和混淆率(Confusion Rate)用于衡量模型在同一道题目不同实例上的预测稳定性。
  • 全面的基线研究 – 对指令微调的 LLM(如 GPT‑4、Claude、LLaMA‑2)进行评估,揭示了科学推理中的具体优势和盲点。

方法论

  1. 题目生成 – 作者从精选的物理概念列表出发,使用基于规则的生成器创建符号化题目模板(例如 “质量为 m 的块在倾角为 θ 的斜面上滑下 …”)。为每个变量分配随机数值范围,从而产生无数具体版本。
  2. 推理标注 – 对每个模板,采用人机协同流水线编写结构化解题大纲(前提 → 公式 → 代数操作 → 最终答案)。
  3. 可执行真实答案 – 将同一大纲转化为 SymPy 代码,符号求解题目并可对任意抽样参数进行数值评估。
  4. 数据集划分与抽样 – 90 % 的模板用于训练,10 % 用于测试。在每个划分内部,作者抽取多个参数集合以评估模型的一致性。
  5. 指标
    • 准确率(标准的对/错)。
    • 一致性得分 – 模型在不同参数变体上答案保持一致的比例。
    • 失败率 – 导致模型崩溃或拒答的变体比例。
    • 混淆率 – 模型选择的错误选项与正确答案“接近”(例如符号形式相同但常数不同)的频率。

结果与发现

模型准确率 (MC‑Symbolic)准确率 (MC‑Numerical)自由形式 BLEU一致性失败率
GPT‑4(指令微调)78 %71 %0.620.842 %
Claude 273 %66 %0.580.793 %
LLaMA‑2‑70B61 %55 %0.440.687 %
开源基线(GPT‑NeoX)48 %42 %0.310.5512 %
  • 优势:所有模型在符号选择题上表现相对良好,尤其是答案依赖单一公式时。
  • 劣势:数值选择题和自由形式答案容易受到四舍五入误差和代数操作错误的影响。
  • 一致性差距:即使是顶级模型,在仅改变数值参数时也会出现正确与错误答案交替的情况,表明推理流程仍然脆弱。
  • 失败模式:常见的失败包括抽样参数导致分母为零而出现“除零”错误,以及因安全过滤器而拒绝执行代码。

实际意义

  • 可靠的科学助理 – 开发 AI 导师或实验室助理的团队可以使用 SymPyBench 对模型进行压力测试,确保在极端参数值下也不会失效。
  • 自动批改与反馈 – 可执行的真实答案使得能够即时为自定义题集生成答案键,适用于 MOOCs 与自适应学习平台。
  • 模型调试工具箱 – 一致性、失败率和混淆率为模型推理管线的薄弱环节提供了明确的信号(例如需要改进符号化简或数值稳定性)。
  • 提示工程 – 基准强调让模型 展示推理过程 并直接输出 SymPy 代码的好处,这些代码随后可以通过程序验证。
  • 安全性与可靠性 – 通过揭示失败案例(如非法操作),开发者可以设计防护措施,在代码执行前捕获不安全的代码生成。

局限性与未来工作

  • 合成偏差 – 虽然生成器覆盖了众多物理主题,但题目仍基于规则,可能无法捕捉真实教材或实验问题的细微差别。
  • 领域范围 – 目前仅限于本科物理;扩展到化学、生物或工程将提升适用性。
  • 模型访问 – 本研究聚焦于指令微调的 LLM;对更小的开源模型进行 SymPyBench 微调后评估,可能会揭示不同的尺度行为。
  • 人工评估 – 自由形式答案采用自动指标(BLEU、ROUGE)进行评估,加入专家人工评分将提供更丰富的质量信号。
  • 动态难度 – 未来版本可根据参数范围自适应生成难度递增的实例,支持课程学习(curriculum‑learning)实验。

SymPyBench 为衡量和提升 LLM 的科学推理打开了新 frontier,将静态教材题目转化为可运行、可测试的代码。对于希望在产品中嵌入可信物理推理的开发者,它既提供了严格的基准,也提供了实用的调试框架。

作者

  • Shima Imani
  • Seungwhan Moon
  • Adel Ahmadyan
  • Lu Zhang
  • Kirmani Ahmed
  • Babak Damavandi

论文信息

  • arXiv ID: 2512.05954v1
  • 分类: cs.AI
  • 发布日期: 2025 年 12 月 5 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »