[Paper] FEM-Bench:用于评估代码生成型大语言模型的结构化科学推理基准

发布: (2025年12月24日 GMT+8 03:40)
7 min read
原文: arXiv

Source: arXiv - 2512.20732v1

请提供您希望翻译的正文内容,我将按照要求将其翻译成简体中文并保持原有的格式、Markdown 语法以及技术术语不变。

Overview

本文介绍了 FEM‑Bench,一个新的基准,用于测试大型语言模型(LLMs)在编写有限元方法(FEM)仿真正确代码方面的能力——这是计算力学的基石。通过将科学推理框架化为具有严格物理和数值约束的编码问题,作者提供了一种具体的方法来衡量 AI 系统在建模真实世界方面的进展。

关键贡献

  • 一个专门的科学推理基准,围绕来自一年级研究生计算力学课程的有限元任务构建。
  • 33个明确定义的问题,涵盖几何创建、材料建模、边界条件指定、网格生成和后处理。
  • 标准化评估协议:每个模型对每个任务有五次独立尝试;成功度在函数层面(代码是否能运行)和单元测试层面(输出是否符合基于物理的容差)进行衡量。
  • 全面的基线结果,针对多个最先进的大语言模型(Gemini 3 Pro、GPT‑5、Claude 3、Llama 2‑70B 等),揭示出显著的性能差距。
  • 开源基准套件(数据集、参考解答和评估脚本),以实现可重复的研究和社区扩展。

方法论

  1. 任务设计 – 作者挑选了 33 个“入门但非平凡”的 FEM 问题。每个问题指定了物理情景(例如,受载的悬臂梁)、所需的材料模型以及期望的输出(位移场、应力分布等)。
  2. 提示构建 – 对每个任务,使用自然语言提示描述物理、数值方法以及目标编程语言(Python 与 FEniCS 或 MATLAB)。
  3. 模型交互 – 选定的 LLM 根据提示生成代码片段。每个模型重复五次以捕获变异性。
  4. 自动验证 – 在沙箱中执行生成的代码。记录两层成功情况:
    • 功能成功 – 脚本无错误运行并产生任何输出。
    • 联合成功(单元测试) – 使用基于容差的断言将输出与参考解比较(例如,最大位移误差 < 1 %)。
  5. 指标 – 将成功率在任务和尝试之间聚合,得到每个模型的分数,例如“33 个任务中有 30 个至少解决一次”或“平均联合成功率为 73.8 %”。

结果与发现

模型(最佳尝试)功能层成功率联合成功率(平均 %)
Gemini 3 Pro (function writing)30 / 33 任务至少一次成功;26 / 33 在全部 5 次尝试中均成功
GPT‑5 (unit‑test writing)73.8 % 平均联合成功率
Claude 318 / 33(≥1 次成功)45 %
Llama 2‑70B12 / 33(≥1 次成功)31 %

关键要点

  • 即使是目前最强大的模型,也无法始终如一地解决一套适度的有限元问题。
  • 性能在不同模型之间以及同一模型的不同尝试之间差异巨大,凸显了随机生成行为。
  • 错误往往是物理层面的,而非语法层面的——例如,错误的边界条件、材料属性指定错误或网格参数不稳定。

实际意义

  • 面向工程师的工具 – 构建 AI‑辅助仿真流水线的公司可以使用 FEM‑Bench 来评估模型是否已准备好投入生产,或是否需要进一步微调。
  • 课程层面的自动化 – 学术实验室可以部署大语言模型为学生作业生成起始代码,但基准测试提醒仍需人工验证。
  • 模型驱动设计 – 将大语言模型集成到 CAD‑到仿真工作流中(从几何体自动生成 FEM 脚本),只有在通过类似 FEM‑Bench 的结构化测试后才可行。
  • 基准驱动开发 – 大语言模型供应商现在拥有一个具体的目标领域(计算力学)进行优化,这可能推动专门的微调数据集和架构调整。

限制与未来工作

  • 范围 – 基准仅覆盖入门级有限元任务;实际工程问题涉及非线性材料、多物理耦合以及大规模并行求解器,这些尚未在基准中体现。
  • 语言偏差 – 目前的提示聚焦于 Python/FEniCS 和 MATLAB;其他流行的有限元框架(如 Abaqus、ANSYS)未被包含。
  • 评估粒度 – 成功与否以每个单元测试的二元(通过/失败)方式判定;更丰富的诊断(例如误差幅度分布)可以更好地揭示模型的弱点。
  • 人机交互 – 本研究未探讨开发者如何迭代地纠正 LLM 输出,这是一种实际的使用模式。

未来的 FEM‑Bench 版本旨在加入更高复杂度的场景(非线性弹性、流体‑结构耦合),支持更多编程环境,并引入交互式调试指标,以反映真实的开发周期。

作者

  • Saeed Mohammadzadeh
  • Erfan Hamdi
  • Joel Shor
  • Emma Lejeune

论文信息

  • arXiv ID: 2512.20732v1
  • 分类: cs.LG, cs.AI, cs.SE
  • 发表时间: 2025年12月23日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »