[Paper] 符号发现随机微分方程的遗传编程
Source: arXiv - 2603.09597v1
Overview
本文提出了一种新方法,使机器能够 发现生成噪声时间序列数据的底层随机微分方程 (SDEs)。通过将符号回归与遗传编程相结合,联合学习确定性的 “漂移” 项和随机的 “扩散” 项,作者将原始的噪声观测转化为 人类可读的生成模型——这一能力有望加速科学洞察和数据驱动的工程实践。
关键贡献
- 符号 SDE 发现:首个使用遗传编程进化闭式表达式来同时求取 SDE 的漂移和扩散函数的方法。
- 最大似然适应度:引入基于似然的目标函数,直接在观测到的随机轨迹上评估候选方程。
- 可扩展到高维:展示了对多维系统(例如耦合振子)的成功恢复,且没有出现指数级爆炸。
- 对稀疏采样的鲁棒性:即使数据以不规则或低频率采样,也能有效工作,这在现实传感中很常见。
- 推广到随机 PDE:将方法扩展到空间扩展系统,表明相同的符号框架可以处理带噪声的偏微分方程。
方法论
-
数据生成 – 作者假设一组观测轨迹 ({x(t_i)}) 是由以下形式的随机微分方程(SDE)生成的
[ \mathrm{d}x = f(x),\mathrm{d}t + g(x),\mathrm{d}W_t, ]
其中 (f)(漂移)和 (g)(扩散)是未知的符号函数,(W_t) 为 Wiener 过程。 -
遗传编程(GP)骨干 – 使用标准 GP 操作(交叉、变异、选择)进化出一群候选符号树,用于表示 (f) 和 (g)。
-
通过最大似然评估适应度 – 对于每一对候选 ((\hat f,\hat g)),在 Euler‑Maruyama 离散化下计算观测增量 (\Delta x) 的对数似然:
[ \log \mathcal{L} = -\sum_i \frac{(\Delta x_i - \hat f(x_i)\Delta t)^2}{2\hat g(x_i)^2\Delta t}- \frac{1}{2}\log\bigl(2\pi \hat g(x_i)^2\Delta t\bigr).
]
这直接奖励能够同时解释数据的均值趋势和方差的模型。
- \frac{1}{2}\log\bigl(2\pi \hat g(x_i)^2\Delta t\bigr).
]
-
简约压力 – 添加复杂度惩罚(例如树深度),以避免表达式膨胀,鼓励简洁、可解释的公式。
-
验证与选择 – 对得分最高的个体在保留的轨迹上进行测试,并在需要时通过短程局部优化(例如基于梯度的系数调优)进行细化。
结果与发现
| 实验 | 真实 SDE | 恢复精度 | 重要观察 |
|---|---|---|---|
| 1维 Ornstein‑Uhlenbeck | (dx = -\theta x,dt + \sigma dW_t) | 精确恢复漂移和扩散(误差在 1 % 以内) | 仅需约 50 个数据点即可工作 |
| 2维耦合 Lotka‑Volterra | 非线性漂移,状态相关扩散 | 正确识别函数形式,系数误差在 5 % 以内 | 随维度线性扩展 |
| 随机 Burgers’ PDE (1‑D) | (\partial_t u = \nu \partial_{xx} u + u\partial_x u + \eta(x,t)) | 捕获符号化扩散项 (\eta),恢复漂移项 | 展示了对空间分布噪声的扩展 |
总体而言,该方法优于基线稀疏回归(仅针对漂移),并且在采样间隔 (\Delta t) 增大至数量级时仍保持稳定。
Practical Implications
- Model‑based simulation – 工程师可以自动获得一个紧凑的随机微分方程(SDE),它不仅能够预测平均行为,还能再现真实的变异性,从而实现无需手工构建噪声模型的蒙特卡罗式情景测试。
- Control & reinforcement learning – 精确的漂移‑扩散模型对随机最优控制和基于模型的强化学习至关重要;符号化形式使得嵌入解析解或约束条件更加容易。
- System identification in IoT / edge devices – 该算法能够容忍稀疏且不规则的数据,因而适用于带宽或功耗限制采样率的传感器网络。
- Explainable AI – 由于输出是人类可读的方程,领域专家可以验证、修改或扩展所发现的动力学,从而弥合黑箱机器学习与传统基于物理建模之间的鸿沟。
- Rapid prototyping of scientific hypotheses – 研究人员可以将实验时间序列(如金融、神经科学、气候等)输入到工作流中,立即得到候选的控制方程以供进一步验证。
限制与未来工作
- 对 Itô‑型噪声的假设 – 当前的似然形式假设加性 Wiener 噪声;对 Lévy 飞行或具有非高斯统计的乘性噪声的扩展未涵盖。
- GP 的计算成本 – 虽然可扩展,但对非常高维系统(> 10 个变量)或大规模数据集,进化搜索可能代价高昂;建议采用结合梯度微调的混合方法。
- 模型选择偏差 – 简约惩罚是启发式的;更有原则的贝叶斯模型证据可能提升对过拟合的鲁棒性。
- 部分可观测性 – 该方法假设完整的状态观测;处理隐藏变量或潜在动力学仍是未解挑战。
未来的研究方向包括将深度神经代理集成到似然项中,扩展到 具有复杂边界条件的随机偏微分方程,以及开发 在线 GP 变体,在新数据流入时更新符号模型。
结论: 通过将遗传编程与考虑漂移与扩散的基于似然的适应度相结合,这项工作开启了 自动化、可解释的噪声动力学定律发现 的大门——这是一种可能成为开发者在建模、仿真和 AI 驱动控制工具箱中常用的工具。
作者
- Sigur de Vries
- Sander W. Keemink
- Marcel A. J. van Gerven
论文信息
- arXiv ID: 2603.09597v1
- 分类: cs.NE, cs.SC
- 发布时间: 2026年3月10日
- PDF: 下载 PDF