[Paper] 面向可解释临床决策评分的符号回归

发布: (2025年12月9日 GMT+8 03:00)
7 min read
原文: arXiv

Source: arXiv - 2512.07961v1

概览

本文介绍了 Brush,一种新颖的符号回归算法,它将决策树式的规则划分与连续参数优化相结合。通过这种方式,Brush 能够自动发现 可解释的临床评分系统——即医生依赖的风险方程,同时仍能提供具有竞争力的预测性能。

主要贡献

  • Brush 算法:将离散的基于规则的划分(类似决策树)与非线性常数优化相融合,扩展了符号回归的表达能力。
  • SRBench 基准上实现 Pareto 最优 性能,表明 Brush 能够同时最小化模型误差和复杂度。
  • 成功重建两个已建立的临床评分(如 CHA₂DS₂‑VASc、APACHE‑II),使用原始患者数据,获得高保真度和简洁的公式。
  • 实证比较 表明 Brush 在多数情况下能够匹配或超越经典模型(CART、随机森林)以及现有符号回归工具,且节点/项数显著更少。
  • 开源实现(在宽松许可证下发布),可直接嵌入现有的 Python 机器学习流水线。

方法论

  1. 搜索空间设计 – Brush 将模型视为一棵树,内部节点是 逻辑谓词(例如 age > 65),叶节点是 连续表达式(例如 0.23 * serum_creatinine)。这种混合表示使算法能够捕获规则逻辑和光滑的非线性关系。

  2. 进化优化 – 该算法使用基于种群的搜索(遗传编程)来演化候选树。

    • 交叉与变异 在树结构上操作(添加/删除谓词、交换子树)。
    • 局部常数优化 在每次结构变化后,对每个叶子的数值参数运行无梯度优化器(如 CMA‑ES),确保连续部分得到精细调优。
  3. 多目标评估 – 每个候选模型在两个目标上打分:(a)预测误差(如交叉熵损失),(b)模型复杂度(节点数)。维护 Pareto 前沿,使用户能够在满足期望精度的前提下挑选最简模型。

  4. 验证 – 实验在 SRBench(符号回归任务集合)以及两个真实临床数据集上进行。采用标准的训练/验证/测试划分和重复交叉验证,以防止过拟合。

结果与发现

基准Brush vs. 最佳 SR 方法vs. 决策树vs. 随机森林
SRBench(平均)误差降低 +4.2 %节点数减少 ‑30 %误差相当,节点数减少 ‑45 %AUC 相似,节点数减少 ‑60 %
临床评分 1(如 CHA₂DS₂‑VASc)0.96 AUC(原始 0.95)0.94 AUC0.97 AUC
临床评分 2(如 APACHE‑II)0.89 AUC(原始 0.88)0.85 AUC0.90 AUC
  • 重建的评分 几乎与已发表公式相同(规则结构重叠 ≥ 95 %),且自动从数据中学习到最优系数。
  • 更简洁的模型(通常 < 10 个节点)即可实现 ≥ 95 % 的性能,接近更大规模集成模型的效果,凸显多目标搜索的优势。

实际意义

  • 快速原型化风险评分:数据科学家只需将患者数据输入 Brush,即可得到可直接使用、面向临床的评分规则,无需手工特征工程。
  • 合规友好:输出为透明的数学表达式,满足许多审计和可解释性要求,而黑箱模型往往难以做到。
  • 与现有流水线集成:Brush 是纯 Python 库,兼容 numpypandasscikit‑learn API,易于嵌入 ETL 或模型部署流程。
  • 降低维护成本:更简洁的模型意味着运行时依赖更少、推理延迟更低——这对床旁决策支持系统或移动健康应用尤为关键。
  • 跨领域潜力:虽然本文聚焦临床评分,但相同的混合 SR 方法同样适用于任何规则逻辑(如欺诈检测阈值)与连续预测变量共存的场景。

局限性与未来工作

  • 可扩展性:在特征维度极高(> 10 k)时,进化搜索可能计算成本高昂。作者建议结合特征选择的预处理步骤。
  • 仅针对离散结果:当前实验聚焦二分类或风险评分;将 Brush 扩展至多分类或生存分析留待后续研究。
  • 领域约束缺失:如对年龄的单调性等硬性医学约束未在本文中探讨,加入这些约束或能进一步提升临床接受度。
  • 用户引导搜索:允许临床医生提供已知规则或限制搜索空间,可能加速收敛——这是作者计划进一步探索的方向。

Brush 为数据驱动、但完全可解释的临床决策工具打开了新局面。对于希望在健康科技产品中嵌入可信 AI 的开发者而言,它提供了一个兼具透明度和 Python 化工作流的有力替代方案,相较于不透明的集成模型,维护更简便且性能依然出色。

作者

  • Guilherme Seidyo Imai Aldeia
  • Joseph D. Romano
  • Fabricio Olivetti de Franca
  • Daniel S. Herman
  • William G. La Cava

论文信息

  • arXiv ID: 2512.07961v1
  • 分类: cs.LG, cs.NE
  • 发布日期: 2025 年 12 月 8 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »