[Paper] 当前 Symbolic Regression 的挑战：优化、选择、模型简化和基准测试

发布: 4天前 (2025年12月1日 GMT+8 21:48)

8 min read

原文: arXiv

Source: arXiv - 2512.01682v1

概览

本论文解决了阻碍符号回归（SR）成为主流数据驱动建模工具的四大长期痛点：如何调节进化算法的超参数、如何挑选真正能提升搜索的父代、如何防止发现的公式膨胀成难以阅读的“意大利面条”、以及如何公平地基准测试新的 SR 技术。通过系统地处理这些问题，作者提供了一个更可靠、更快速且更易解释的 SR 流程，在合成数据集和真实世界数据集上均优于当前最先进的方法。

关键贡献

参数优化研究 – 量化在调节 GP 超参数时预测精度、运行时间和表达式规模之间的权衡。
ε‑lexicase 父代选择 – 引入一种选择方案，偏好在任意子集案例上表现出色的个体，从而产生更高质量的后代。
新颖的模型简化技术 – 结合记忆化（memoization）和局部敏感哈希（LSH）检测并合并冗余子表达式，生成更小且更精确的公式。
多目标 SR 库 – 在开源进化 SR 框架中实现上述思想，同时优化 准确性 和 简洁性。
基准套件 overhaul – 对广泛使用的大规模 SR 基准提出具体改进，然后重新评估整个 SR 领域，以展示新方法的帕累托最优性能。

方法论

研究遵循模块化、实验性的流水线：

基线 GP 引擎 – 从经典的基于树的遗传编程（GP）实现开始，演化数学表达式。
超参数扫描 – 系统地变化突变率、种群规模、交叉概率等，测量对误差、运行时间和树深度的影响。
ε‑lexicase 选择 – 用 ε‑lexicase 替代常规的锦标赛或轮盘选择，它在逐案例的基础上对候选者进行排序，仅提升在至少一个案例上误差在 ε 容差内的个体。
通过记忆化与 LSH 的简化 – 在评估个体时，子树被缓存（记忆化）。局部敏感哈希（LSH）将数学上等价或近似等价的子表达式归为一类，使算法能够实时剪枝重复项。
多目标优化 – 使用帕累托前沿平衡两个目标：(a) 最小化预测误差，(b) 最小化公式复杂度（通过节点数、深度或描述长度衡量）。
基准测试 – 在精心挑选的合成函数套件（如多项式、三角函数）和真实世界回归问题（如能耗、医学数据）上运行完整流水线。基准套件本身也经过审计和更新，以反映更真实的评估标准（如运行时间上限、噪声水平）。

所有实验均以统计严谨性重复（多随机种子、置信区间），确保报告的提升具有稳健性。

结果与发现

方面	观察到的情况	实际意义
参数调优	中等规模的种群 + 较高的突变率提升精度，但会增大树的规模；激进的交叉加速收敛，却可能导致膨胀。	实践者可以选取一个在速度和模型可解释性之间的“甜点”，无需进行穷尽的网格搜索。
ε‑lexicase 选择	稳定产生更低的测试集误差（约 5‑12 % 改进），并减少达到目标误差所需的代数。	更快的收敛转化为云端或边缘设备上更低的计算成本。
简化（记忆化+LSH）	将平均表达式节点数降低 30‑45 %，同时保持或略微提升预测性能。	更小的公式更易审计、嵌入生产代码，并满足监管透明度要求。
多目标库	在 80 % 的基准问题上实现支配领先 SR 工具（如 Eureqa、PySR、gplearn）的帕累托前沿。	开发者可自动获得精度与简洁性的最佳权衡，无需手动后处理剪枝。
基准 overhaul	修正不一致（如不现实的噪声水平、缺失的运行时限制）后，新方法仍保持最高排名，验证其鲁棒性。	为社区提供更可信的衡量标准，以供未来 SR 研究使用。

实际意义

快速原型化可解释模型 – 数据科学家可以用紧凑的符号公式取代黑箱回归器（如随机森林），并直接生成 C、Python 甚至 SQL 代码。
边缘 AI 与物联网 – 减小的模型体积和更低的评估成本使 SR 在内存和 CPU 资源受限的微控制器上可行。
监管合规 – 金融、医疗等需要可解释 AI 的行业可利用简化后的表达式满足审计追踪和模型风险评估要求。
AutoML 流水线 – ε‑lexicase 选择器和内置简化模块可直接嵌入现有 AutoML 框架，提升其进化搜索组件。
开源生态 – 已发布的库（预计在 GitHub）可通过自定义适应度函数、领域特定算子或与 pandas、scikit‑learn 等主流数据科学栈集成进行扩展。

局限性与未来工作

对高维数据的可扩展性 – 方法在处理数十个特征时表现良好，但在上百变量的情况下性能下降；可能需要先行降维或特征选择。
LSH 的运行时开销 – 哈希步骤为评估时间增加了一个适度的常数因子；优化哈希函数或并行化记忆化缓存可缓解此问题。
基准多样性 – 虽然已改进，但当前基准仍偏重合成函数；加入更多领域真实任务（如控制系统、物理仿真）将进一步验证通用性。
混合方法 – 将 SR 与基于梯度的微调（如可微编程）相结合，可能在保持可解释性的同时进一步提升精度。

总体而言，本文提供了一个具体、面向开发者的工具箱，使符号回归更接近日常生产环境的实际使用。

作者

Guilherme Seidyo Imai Aldeia

论文信息

arXiv ID: 2512.01682v1
分类: cs.NE
发布时间: 2025 年 12 月 1 日
PDF: Download PDF

[Paper] 当前 Symbolic Regression 的挑战：优化、选择、模型简化和基准测试

概览

关键贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] 通用权重子空间假设

[Paper] Light‑X：生成式 4D 视频渲染与相机和光照控制

[Paper] 价值梯度引导用于流匹配对齐

[Paper] 基于多对比 MRI 的深度婴儿脑分割