[Paper] 面向可解释临床决策评分的符号回归
发布: (2025年12月9日 GMT+8 03:00)
7 min read
原文: arXiv
Source: arXiv - 2512.07961v1
概览
本文介绍了 Brush,一种新颖的符号回归算法,它将决策树式的规则划分与连续参数优化相结合。通过这种方式,Brush 能够自动发现 可解释的临床评分系统——即医生依赖的风险方程,同时仍能提供具有竞争力的预测性能。
主要贡献
- Brush 算法:将离散的基于规则的划分(类似决策树)与非线性常数优化相融合,扩展了符号回归的表达能力。
- 在 SRBench 基准上实现 Pareto 最优 性能,表明 Brush 能够同时最小化模型误差和复杂度。
- 成功重建两个已建立的临床评分(如 CHA₂DS₂‑VASc、APACHE‑II),使用原始患者数据,获得高保真度和简洁的公式。
- 实证比较 表明 Brush 在多数情况下能够匹配或超越经典模型(CART、随机森林)以及现有符号回归工具,且节点/项数显著更少。
- 开源实现(在宽松许可证下发布),可直接嵌入现有的 Python 机器学习流水线。
方法论
-
搜索空间设计 – Brush 将模型视为一棵树,内部节点是 逻辑谓词(例如
age > 65),叶节点是 连续表达式(例如0.23 * serum_creatinine)。这种混合表示使算法能够捕获规则逻辑和光滑的非线性关系。 -
进化优化 – 该算法使用基于种群的搜索(遗传编程)来演化候选树。
- 交叉与变异 在树结构上操作(添加/删除谓词、交换子树)。
- 局部常数优化 在每次结构变化后,对每个叶子的数值参数运行无梯度优化器(如 CMA‑ES),确保连续部分得到精细调优。
-
多目标评估 – 每个候选模型在两个目标上打分:(a)预测误差(如交叉熵损失),(b)模型复杂度(节点数)。维护 Pareto 前沿,使用户能够在满足期望精度的前提下挑选最简模型。
-
验证 – 实验在 SRBench(符号回归任务集合)以及两个真实临床数据集上进行。采用标准的训练/验证/测试划分和重复交叉验证,以防止过拟合。
结果与发现
| 基准 | Brush vs. 最佳 SR 方法 | vs. 决策树 | vs. 随机森林 |
|---|---|---|---|
| SRBench(平均) | 误差降低 +4.2 %,节点数减少 ‑30 % | 误差相当,节点数减少 ‑45 % | AUC 相似,节点数减少 ‑60 % |
| 临床评分 1(如 CHA₂DS₂‑VASc) | 0.96 AUC(原始 0.95) | 0.94 AUC | 0.97 AUC |
| 临床评分 2(如 APACHE‑II) | 0.89 AUC(原始 0.88) | 0.85 AUC | 0.90 AUC |
- 重建的评分 几乎与已发表公式相同(规则结构重叠 ≥ 95 %),且自动从数据中学习到最优系数。
- 更简洁的模型(通常 < 10 个节点)即可实现 ≥ 95 % 的性能,接近更大规模集成模型的效果,凸显多目标搜索的优势。
实际意义
- 快速原型化风险评分:数据科学家只需将患者数据输入 Brush,即可得到可直接使用、面向临床的评分规则,无需手工特征工程。
- 合规友好:输出为透明的数学表达式,满足许多审计和可解释性要求,而黑箱模型往往难以做到。
- 与现有流水线集成:Brush 是纯 Python 库,兼容
numpy、pandas与scikit‑learnAPI,易于嵌入 ETL 或模型部署流程。 - 降低维护成本:更简洁的模型意味着运行时依赖更少、推理延迟更低——这对床旁决策支持系统或移动健康应用尤为关键。
- 跨领域潜力:虽然本文聚焦临床评分,但相同的混合 SR 方法同样适用于任何规则逻辑(如欺诈检测阈值)与连续预测变量共存的场景。
局限性与未来工作
- 可扩展性:在特征维度极高(> 10 k)时,进化搜索可能计算成本高昂。作者建议结合特征选择的预处理步骤。
- 仅针对离散结果:当前实验聚焦二分类或风险评分;将 Brush 扩展至多分类或生存分析留待后续研究。
- 领域约束缺失:如对年龄的单调性等硬性医学约束未在本文中探讨,加入这些约束或能进一步提升临床接受度。
- 用户引导搜索:允许临床医生提供已知规则或限制搜索空间,可能加速收敛——这是作者计划进一步探索的方向。
Brush 为数据驱动、但完全可解释的临床决策工具打开了新局面。对于希望在健康科技产品中嵌入可信 AI 的开发者而言,它提供了一个兼具透明度和 Python 化工作流的有力替代方案,相较于不透明的集成模型,维护更简便且性能依然出色。
作者
- Guilherme Seidyo Imai Aldeia
- Joseph D. Romano
- Fabricio Olivetti de Franca
- Daniel S. Herman
- William G. La Cava
论文信息
- arXiv ID: 2512.07961v1
- 分类: cs.LG, cs.NE
- 发布日期: 2025 年 12 月 8 日
- PDF: Download PDF