[Paper] 利用基于 LLM 的定性与定量评估发现常微分方程

发布: 3天前 (2026年5月8日 GMT+8 14:29)

7 分钟阅读

原文: arXiv

Source: arXiv - 2605.07323v1

请提供您希望翻译的具体文本内容，我将按照要求保留源链接并翻译其余部分。

概述

本文介绍了 DoLQ，一种新颖的框架，利用大语言模型（LLMs）来评估从数据中发现的候选常微分方程（ODE）的定量拟合度和定性合理性。通过将符号回归与 AI 驱动的“科学家推理”相结合，作者实现了对控制方程的更可靠恢复——这是构建可信的科学机器学习模型的关键步骤。

LLM‑增强评估： 引入一个 Scientist Agent，利用 LLM 执行定性检查（例如物理合理性、维度一致性），与传统的定量误差指标并行使用。
多代理架构： 结合三个专门的代理——Sampler、Parameter Optimizer 和 Scientist——迭代地提出、改进并验证 ODE 候选。
改进的发现性能： 在标准多维 ODE 基准上，相较于最先进的符号回归方法，展示出更高的成功率和更精确的符号恢复。
开源实现： 提供可直接运行的代码库（GitHub 链接），可嵌入现有的科学‑ML 流水线。

Sampler Agent – 随机生成候选 ODE 结构（例如 dx/dt = a·x + b·y²）。
Parameter Optimizer – 使用基于梯度或进化的技术，将采样结构的数值系数拟合到观测到的时间序列数据上，最小化诸如均方误差的损失。
Scientist Agent (LLM) – 将候选方程及其拟合参数发送给大型语言模型（例如 GPT‑4）。该 LLM 返回：
- Qualitative feedback（定性反馈）：检查维度一致性、已知物理定律以及直观行为（例如，“对于阻尼振子，该项应为负”）。
- Quantitative scoring（定量评分）：基于 LLM 对拟合质量的内部推理得出的置信分数。
Synthesis & Guidance – 系统将 LLM 的定性洞察与数值损失相结合，生成复合评分，引导下一轮采样朝更合理的候选方向进行。该循环重复，直至收敛或预设预算耗尽。

该方法刻意保持模块化：任何现成的符号回归引擎都可以替代 Sampler，任何具备合适提示接口的 LLM 都可以充当 Scientist。

基准性能： 在包含 Lotka‑Volterra、Lorenz 和阻尼谐振子等 10 个多维 ODE 问题的套件中，DoLQ 实现了 92 % 的成功率，能够恢复精确的符号形式，而最佳的已有方法仅为 68 %。
误差降低： 平均归一化均方误差从 0.13（基线）下降到 0.04（DoLQ），表明定量拟合更为紧密。
定性提升： 在基线方法恢复出数学上正确但物理上不合理的项（例如在应有阻尼的情况下出现正反馈环路）的情况下，DoLQ 的 LLM 反馈能够提前剔除这些候选，从而节省计算资源。
消融研究： 移除基于 LLM 的定性检查会使成功率下降约 15 %，证实了“科学家”推理在仅靠原始损失最小化之外仍有显著贡献。

DoLQ 开辟了一条有前景的道路，使符号回归与大语言模型推理共同演进，让我们更接近完全自动化发现物理上合理的动力学模型。