[Paper] 符号发现随机微分方程的遗传编程

发布: 18小时前 (2026年3月10日 GMT+8 20:43)

8 分钟阅读

原文: arXiv

Source: arXiv - 2603.09597v1

Overview

本文提出了一种新方法，使机器能够 发现生成噪声时间序列数据的底层随机微分方程 (SDEs)。通过将符号回归与遗传编程相结合，联合学习确定性的 “漂移” 项和随机的 “扩散” 项，作者将原始的噪声观测转化为 人类可读的生成模型——这一能力有望加速科学洞察和数据驱动的工程实践。

数据生成 – 作者假设一组观测轨迹 ({x(t_i)}) 是由以下形式的随机微分方程（SDE）生成的
[ \mathrm{d}x = f(x),\mathrm{d}t + g(x),\mathrm{d}W_t, ]
其中 (f)（漂移）和 (g)（扩散）是未知的符号函数，(W_t) 为 Wiener 过程。
遗传编程（GP）骨干 – 使用标准 GP 操作（交叉、变异、选择）进化出一群候选符号树，用于表示 (f) 和 (g)。
通过最大似然评估适应度 – 对于每一对候选 ((\hat f,\hat g))，在 Euler‑Maruyama 离散化下计算观测增量 (\Delta x) 的对数似然：
[ \log \mathcal{L} = -\sum_i \frac{(\Delta x_i - \hat f(x_i)\Delta t)^2}{2\hat g(x_i)^2\Delta t}
- \frac{1}{2}\log\bigl(2\pi \hat g(x_i)^2\Delta t\bigr). ]
  这直接奖励能够同时解释数据的均值趋势和方差的模型。
简约压力 – 添加复杂度惩罚（例如树深度），以避免表达式膨胀，鼓励简洁、可解释的公式。
验证与选择 – 对得分最高的个体在保留的轨迹上进行测试，并在需要时通过短程局部优化（例如基于梯度的系数调优）进行细化。

实验	真实 SDE	恢复精度	重要观察
1维 Ornstein‑Uhlenbeck	(dx = -\theta x,dt + \sigma dW_t)	精确恢复漂移和扩散（误差在 1 % 以内）	仅需约 50 个数据点即可工作
2维耦合 Lotka‑Volterra	非线性漂移，状态相关扩散	正确识别函数形式，系数误差在 5 % 以内	随维度线性扩展
随机 Burgers’ PDE (1‑D)	(\partial_t u = \nu \partial_{xx} u + u\partial_x u + \eta(x,t))	捕获符号化扩散项 (\eta)，恢复漂移项	展示了对空间分布噪声的扩展

总体而言，该方法优于基线稀疏回归（仅针对漂移），并且在采样间隔 (\Delta t) 增大至数量级时仍保持稳定。

Model‑based simulation – 工程师可以自动获得一个紧凑的随机微分方程（SDE），它不仅能够预测平均行为，还能再现真实的变异性，从而实现无需手工构建噪声模型的蒙特卡罗式情景测试。
Control & reinforcement learning – 精确的漂移‑扩散模型对随机最优控制和基于模型的强化学习至关重要；符号化形式使得嵌入解析解或约束条件更加容易。
System identification in IoT / edge devices – 该算法能够容忍稀疏且不规则的数据，因而适用于带宽或功耗限制采样率的传感器网络。
Explainable AI – 由于输出是人类可读的方程，领域专家可以验证、修改或扩展所发现的动力学，从而弥合黑箱机器学习与传统基于物理建模之间的鸿沟。
Rapid prototyping of scientific hypotheses – 研究人员可以将实验时间序列（如金融、神经科学、气候等）输入到工作流中，立即得到候选的控制方程以供进一步验证。

未来的研究方向包括将深度神经代理集成到似然项中，扩展到 具有复杂边界条件的随机偏微分方程，以及开发 在线 GP 变体，在新数据流入时更新符号模型。

结论: 通过将遗传编程与考虑漂移与扩散的基于似然的适应度相结合，这项工作开启了 自动化、可解释的噪声动力学定律发现 的大门——这是一种可能成为开发者在建模、仿真和 AI 驱动控制工具箱中常用的工具。