[Paper] 当前 Symbolic Regression 的挑战:优化、选择、模型简化和基准测试

发布: (2025年12月1日 GMT+8 21:48)
8 min read
原文: arXiv

Source: arXiv - 2512.01682v1

概览

本论文解决了阻碍符号回归(SR)成为主流数据驱动建模工具的四大长期痛点:如何调节进化算法的超参数、如何挑选真正能提升搜索的父代、如何防止发现的公式膨胀成难以阅读的“意大利面条”、以及如何公平地基准测试新的 SR 技术。通过系统地处理这些问题,作者提供了一个更可靠、更快速且更易解释的 SR 流程,在合成数据集和真实世界数据集上均优于当前最先进的方法。

关键贡献

  • 参数优化研究 – 量化在调节 GP 超参数时预测精度、运行时间和表达式规模之间的权衡。
  • ε‑lexicase 父代选择 – 引入一种选择方案,偏好在任意子集案例上表现出色的个体,从而产生更高质量的后代。
  • 新颖的模型简化技术 – 结合记忆化(memoization)和局部敏感哈希(LSH)检测并合并冗余子表达式,生成更小且更精确的公式。
  • 多目标 SR 库 – 在开源进化 SR 框架中实现上述思想,同时优化 准确性 简洁性
  • 基准套件 overhaul – 对广泛使用的大规模 SR 基准提出具体改进,然后重新评估整个 SR 领域,以展示新方法的帕累托最优性能。

方法论

研究遵循模块化、实验性的流水线:

  1. 基线 GP 引擎 – 从经典的基于树的遗传编程(GP)实现开始,演化数学表达式。
  2. 超参数扫描 – 系统地变化突变率、种群规模、交叉概率等,测量对误差、运行时间和树深度的影响。
  3. ε‑lexicase 选择 – 用 ε‑lexicase 替代常规的锦标赛或轮盘选择,它在逐案例的基础上对候选者进行排序,仅提升在至少一个案例上误差在 ε 容差内的个体。
  4. 通过记忆化与 LSH 的简化 – 在评估个体时,子树被缓存(记忆化)。局部敏感哈希(LSH)将数学上等价或近似等价的子表达式归为一类,使算法能够实时剪枝重复项。
  5. 多目标优化 – 使用帕累托前沿平衡两个目标:(a) 最小化预测误差,(b) 最小化公式复杂度(通过节点数、深度或描述长度衡量)。
  6. 基准测试 – 在精心挑选的合成函数套件(如多项式、三角函数)和真实世界回归问题(如能耗、医学数据)上运行完整流水线。基准套件本身也经过审计和更新,以反映更真实的评估标准(如运行时间上限、噪声水平)。

所有实验均以统计严谨性重复(多随机种子、置信区间),确保报告的提升具有稳健性。

结果与发现

方面观察到的情况实际意义
参数调优中等规模的种群 + 较高的突变率提升精度,但会增大树的规模;激进的交叉加速收敛,却可能导致膨胀。实践者可以选取一个在速度和模型可解释性之间的“甜点”,无需进行穷尽的网格搜索。
ε‑lexicase 选择稳定产生更低的测试集误差(约 5‑12 % 改进),并减少达到目标误差所需的代数。更快的收敛转化为云端或边缘设备上更低的计算成本。
简化(记忆化+LSH)将平均表达式节点数降低 30‑45 %,同时保持或略微提升预测性能。更小的公式更易审计、嵌入生产代码,并满足监管透明度要求。
多目标库在 80 % 的基准问题上实现支配领先 SR 工具(如 Eureqa、PySR、gplearn)的帕累托前沿。开发者可自动获得精度与简洁性的最佳权衡,无需手动后处理剪枝。
基准 overhaul修正不一致(如不现实的噪声水平、缺失的运行时限制)后,新方法仍保持最高排名,验证其鲁棒性。为社区提供更可信的衡量标准,以供未来 SR 研究使用。

实际意义

  • 快速原型化可解释模型 – 数据科学家可以用紧凑的符号公式取代黑箱回归器(如随机森林),并直接生成 C、Python 甚至 SQL 代码。
  • 边缘 AI 与物联网 – 减小的模型体积和更低的评估成本使 SR 在内存和 CPU 资源受限的微控制器上可行。
  • 监管合规 – 金融、医疗等需要可解释 AI 的行业可利用简化后的表达式满足审计追踪和模型风险评估要求。
  • AutoML 流水线 – ε‑lexicase 选择器和内置简化模块可直接嵌入现有 AutoML 框架,提升其进化搜索组件。
  • 开源生态 – 已发布的库(预计在 GitHub)可通过自定义适应度函数、领域特定算子或与 pandas、scikit‑learn 等主流数据科学栈集成进行扩展。

局限性与未来工作

  • 对高维数据的可扩展性 – 方法在处理数十个特征时表现良好,但在上百变量的情况下性能下降;可能需要先行降维或特征选择。
  • LSH 的运行时开销 – 哈希步骤为评估时间增加了一个适度的常数因子;优化哈希函数或并行化记忆化缓存可缓解此问题。
  • 基准多样性 – 虽然已改进,但当前基准仍偏重合成函数;加入更多领域真实任务(如控制系统、物理仿真)将进一步验证通用性。
  • 混合方法 – 将 SR 与基于梯度的微调(如可微编程)相结合,可能在保持可解释性的同时进一步提升精度。

总体而言,本文提供了一个具体、面向开发者的工具箱,使符号回归更接近日常生产环境的实际使用。

作者

  • Guilherme Seidyo Imai Aldeia

论文信息

  • arXiv ID: 2512.01682v1
  • 分类: cs.NE
  • 发布时间: 2025 年 12 月 1 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »