[Paper] FEM-Bench：用于评估代码生成型大语言模型的结构化科学推理基准

发布: 1个月前 (2025年12月24日 GMT+8 03:40)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.20732v1

请提供您希望翻译的正文内容，我将按照要求将其翻译成简体中文并保持原有的格式、Markdown 语法以及技术术语不变。

Overview

本文介绍了 FEM‑Bench，一个新的基准，用于测试大型语言模型（LLMs）在编写有限元方法（FEM）仿真正确代码方面的能力——这是计算力学的基石。通过将科学推理框架化为具有严格物理和数值约束的编码问题，作者提供了一种具体的方法来衡量 AI 系统在建模真实世界方面的进展。

一个专门的科学推理基准，围绕来自一年级研究生计算力学课程的有限元任务构建。
33个明确定义的问题，涵盖几何创建、材料建模、边界条件指定、网格生成和后处理。
标准化评估协议：每个模型对每个任务有五次独立尝试；成功度在函数层面（代码是否能运行）和单元测试层面（输出是否符合基于物理的容差）进行衡量。
全面的基线结果，针对多个最先进的大语言模型（Gemini 3 Pro、GPT‑5、Claude 3、Llama 2‑70B 等），揭示出显著的性能差距。
开源基准套件（数据集、参考解答和评估脚本），以实现可重复的研究和社区扩展。

任务设计 – 作者挑选了 33 个“入门但非平凡”的 FEM 问题。每个问题指定了物理情景（例如，受载的悬臂梁）、所需的材料模型以及期望的输出（位移场、应力分布等）。
提示构建 – 对每个任务，使用自然语言提示描述物理、数值方法以及目标编程语言（Python 与 FEniCS 或 MATLAB）。
模型交互 – 选定的 LLM 根据提示生成代码片段。每个模型重复五次以捕获变异性。
自动验证 – 在沙箱中执行生成的代码。记录两层成功情况：
- 功能成功 – 脚本无错误运行并产生任何输出。
- 联合成功（单元测试） – 使用基于容差的断言将输出与参考解比较（例如，最大位移误差 < 1 %）。
指标 – 将成功率在任务和尝试之间聚合，得到每个模型的分数，例如“33 个任务中有 30 个至少解决一次”或“平均联合成功率为 73.8 %”。

关键要点

面向工程师的工具 – 构建 AI‑辅助仿真流水线的公司可以使用 FEM‑Bench 来评估模型是否已准备好投入生产，或是否需要进一步微调。
课程层面的自动化 – 学术实验室可以部署大语言模型为学生作业生成起始代码，但基准测试提醒仍需人工验证。
模型驱动设计 – 将大语言模型集成到 CAD‑到仿真工作流中（从几何体自动生成 FEM 脚本），只有在通过类似 FEM‑Bench 的结构化测试后才可行。
基准驱动开发 – 大语言模型供应商现在拥有一个具体的目标领域（计算力学）进行优化，这可能推动专门的微调数据集和架构调整。

未来的 FEM‑Bench 版本旨在加入更高复杂度的场景（非线性弹性、流体‑结构耦合），支持更多编程环境，并引入交互式调试指标，以反映真实的开发周期。