[Paper] 贝叶斯符号回归 via 后验采样

发布: (2025年12月12日 GMT+8 01:38)
7 min read
原文: arXiv

Source: arXiv - 2512.10849v1

Overview

一篇新论文提出了一种 基于贝叶斯的符号回归 方法,使用顺序蒙特卡罗(SMC)从数学表达式的后验分布中采样。通过将寻找方程的问题视为概率推断问题,作者显著提升了对噪声数据的鲁棒性,并为开发者提供了一种量化发现模型不确定性的原则性方法。

Key Contributions

  • 基于SMC的后验采样器 用于符号表达式,取代了常见的确定性或进化启发式方法。
  • 自适应温度调度 逐步锐化后验,使算法能够在早期逃离劣质局部最优。
  • 归一化边际似然 作为适应度度量,自然平衡模型拟合度与表达式复杂度(简约性)。
  • 在噪声基准问题上的实证验证 表明相较于标准遗传编程(GP)基线,过拟合更少、预测精度更高。
  • 对发现方程的不确定性量化,为下游的风险感知决策提供支持。

Methodology

  1. 概率模型 – 作者在语法树(符号表达式)上定义了一个先验,倾向于更短、更简洁的树。似然函数衡量候选表达式对观测数据的解释程度,并考虑测量噪声。
  2. 顺序蒙特卡罗 – 一组粒子(候选树)在一系列中间分布中传播。每一步包括:
    • 重采样 根据当前权重(概率选择)挑选粒子。
    • 变异/交叉 操作(类似于GP)生成新树。
    • 自适应温度 调整温度参数 β,缓慢从先验(β≈0)过渡到真实后验(β≈1)。
  3. 边际似然估计 – 算法为每个粒子计算归一化的证据项,作为贝叶斯“得分”,对过于复杂的表达式进行惩罚。
  4. 后验汇总 – 在最终温度步骤后,粒子集合近似后验分布。可以提取最可能的表达式(MAP)或加权集合,并直接从粒子集合获得预测的可信区间。

Results & Findings

数据集(有噪声)基于GP的符号回归(基线)贝叶斯SMC符号回归(本工作)
合成ODERMSE ↑ 0.42,平均树节点数 12RMSE ↓ 0.21,平均树节点数 7
真实物理(摆)过拟合,预测方差大方差更低,样本外R²提升 15 %
工程设计(气动)噪声10 %时误差增加3倍对噪声鲁棒,误差增长 < 1.2×
  • 泛化能力:贝叶斯方法始终得到更简洁且对未见数据泛化更好的表达式。
  • 噪声鲁棒性:即使在20 %高斯噪声下,后验仍集中在真实控制方程附近,而GP往往会坍缩为虚假的高次多项式。
  • 不确定性估计:从粒子集合得到的可信区间在 >95 % 的测试点上能够覆盖真实输出,这是GP原生方法所缺乏的。

Practical Implications

  • 模型发现流水线 – 工程师可以用SMC采样器替代易受噪声影响的GP模块,从而获得更可靠的控制、仿真或优化方程。
  • 风险感知AI – 后验自然提供置信界限,使安全关键系统(如自动驾驶车辆、医疗设备)在部署前评估发现模型的可信度。
  • 自动化科学发现 – 研究人员可以在大规模实验数据(如材料科学、气候建模)上进行探索,无需手动调参GP超参数;贝叶斯框架会自动处理模型复杂度。
  • 与现有工具集成 – 该算法可包装为流行SR库(如DEAP、gplearn)的即插即用替代品,因为它仍使用开发者熟悉的基于树的变异/交叉操作符。
  • 可扩展性 – 虽然SMC带来一定的计算开销,但粒子群可以在CPU/GPU上并行,足以应对中等规模问题(数千条数据、数十个变量)。

Limitations & Future Work

  • 计算成本 – 为高维表达式空间采样足够大的粒子集相较于快速的GP启发式方法更为昂贵。
  • 先验设计 – 当前的树结构先验是手工构造的;从领域知识中学习更具表达力的先验可能进一步提升性能。
  • 对超大数据集的可扩展性 – 作者指出,需要采用小批量似然近似来处理超过数十万条数据的情形。
  • 扩展到更丰富的函数库 – 未来工作可加入自定义算子(如积分、微分算子),并更直接地处理符号约束。

总体而言,论文展示了 将贝叶斯推断引入符号回归 能在鲁棒性、可解释性和不确定性量化方面带来实质性收益——这些特性在现代数据驱动的工程和科学工作流中需求日益增长。

Authors

  • Geoffrey F. Bomarito
  • Patrick E. Leser

Paper Information

  • arXiv ID: 2512.10849v1
  • Categories: cs.LG
  • Published: December 11, 2025
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »