[Paper] FEM-Bench:用于评估代码生成型大语言模型的结构化科学推理基准
发布: (2025年12月24日 GMT+8 03:40)
7 min read
原文: arXiv
Source: arXiv - 2512.20732v1
请提供您希望翻译的正文内容,我将按照要求将其翻译成简体中文并保持原有的格式、Markdown 语法以及技术术语不变。
Overview
本文介绍了 FEM‑Bench,一个新的基准,用于测试大型语言模型(LLMs)在编写有限元方法(FEM)仿真正确代码方面的能力——这是计算力学的基石。通过将科学推理框架化为具有严格物理和数值约束的编码问题,作者提供了一种具体的方法来衡量 AI 系统在建模真实世界方面的进展。
关键贡献
- 一个专门的科学推理基准,围绕来自一年级研究生计算力学课程的有限元任务构建。
- 33个明确定义的问题,涵盖几何创建、材料建模、边界条件指定、网格生成和后处理。
- 标准化评估协议:每个模型对每个任务有五次独立尝试;成功度在函数层面(代码是否能运行)和单元测试层面(输出是否符合基于物理的容差)进行衡量。
- 全面的基线结果,针对多个最先进的大语言模型(Gemini 3 Pro、GPT‑5、Claude 3、Llama 2‑70B 等),揭示出显著的性能差距。
- 开源基准套件(数据集、参考解答和评估脚本),以实现可重复的研究和社区扩展。
方法论
- 任务设计 – 作者挑选了 33 个“入门但非平凡”的 FEM 问题。每个问题指定了物理情景(例如,受载的悬臂梁)、所需的材料模型以及期望的输出(位移场、应力分布等)。
- 提示构建 – 对每个任务,使用自然语言提示描述物理、数值方法以及目标编程语言(Python 与 FEniCS 或 MATLAB)。
- 模型交互 – 选定的 LLM 根据提示生成代码片段。每个模型重复五次以捕获变异性。
- 自动验证 – 在沙箱中执行生成的代码。记录两层成功情况:
- 功能成功 – 脚本无错误运行并产生任何输出。
- 联合成功(单元测试) – 使用基于容差的断言将输出与参考解比较(例如,最大位移误差 < 1 %)。
- 指标 – 将成功率在任务和尝试之间聚合,得到每个模型的分数,例如“33 个任务中有 30 个至少解决一次”或“平均联合成功率为 73.8 %”。
结果与发现
| 模型(最佳尝试) | 功能层成功率 | 联合成功率(平均 %) |
|---|---|---|
| Gemini 3 Pro (function writing) | 30 / 33 任务至少一次成功;26 / 33 在全部 5 次尝试中均成功 | – |
| GPT‑5 (unit‑test writing) | – | 73.8 % 平均联合成功率 |
| Claude 3 | 18 / 33(≥1 次成功) | 45 % |
| Llama 2‑70B | 12 / 33(≥1 次成功) | 31 % |
关键要点
- 即使是目前最强大的模型,也无法始终如一地解决一套适度的有限元问题。
- 性能在不同模型之间以及同一模型的不同尝试之间差异巨大,凸显了随机生成行为。
- 错误往往是物理层面的,而非语法层面的——例如,错误的边界条件、材料属性指定错误或网格参数不稳定。
实际意义
- 面向工程师的工具 – 构建 AI‑辅助仿真流水线的公司可以使用 FEM‑Bench 来评估模型是否已准备好投入生产,或是否需要进一步微调。
- 课程层面的自动化 – 学术实验室可以部署大语言模型为学生作业生成起始代码,但基准测试提醒仍需人工验证。
- 模型驱动设计 – 将大语言模型集成到 CAD‑到仿真工作流中(从几何体自动生成 FEM 脚本),只有在通过类似 FEM‑Bench 的结构化测试后才可行。
- 基准驱动开发 – 大语言模型供应商现在拥有一个具体的目标领域(计算力学)进行优化,这可能推动专门的微调数据集和架构调整。
限制与未来工作
- 范围 – 基准仅覆盖入门级有限元任务;实际工程问题涉及非线性材料、多物理耦合以及大规模并行求解器,这些尚未在基准中体现。
- 语言偏差 – 目前的提示聚焦于 Python/FEniCS 和 MATLAB;其他流行的有限元框架(如 Abaqus、ANSYS)未被包含。
- 评估粒度 – 成功与否以每个单元测试的二元(通过/失败)方式判定;更丰富的诊断(例如误差幅度分布)可以更好地揭示模型的弱点。
- 人机交互 – 本研究未探讨开发者如何迭代地纠正 LLM 输出,这是一种实际的使用模式。
未来的 FEM‑Bench 版本旨在加入更高复杂度的场景(非线性弹性、流体‑结构耦合),支持更多编程环境,并引入交互式调试指标,以反映真实的开发周期。
作者
- Saeed Mohammadzadeh
- Erfan Hamdi
- Joel Shor
- Emma Lejeune
论文信息
- arXiv ID: 2512.20732v1
- 分类: cs.LG, cs.AI, cs.SE
- 发表时间: 2025年12月23日
- PDF: 下载 PDF