[Paper] 从数据提升到连续风险估计：面向过程的管道用于临床路径的预测监控

发布: 5天前 (2026年5月5日 GMT+8 23:51)

7 分钟阅读

原文: arXiv

Source: arXiv - 2605.03895v1

概述

作者提出了一种 面向过程的预测监控流水线，能够在临床路径展开的过程中持续估计患者风险。通过将原始电子健康记录转换为时间顺序的事件日志并输入标准机器学习模型，该框架可以实时更新风险评分——在 COVID‑19 重症监护室入院预测中得到验证。

Data Lifting – 将原始电子健康记录表（实验室结果、手术、生命体征）展平为统一的事件架构（例如，“氧疗开始”）。
Temporal Reconstruction – 对每位患者的时间戳进行排序，填补缺口，构建 case timeline（病例时间线）。
Event Log Construction – 将时间线转换为 event log（过程挖掘中的标准工件），其中每行包含 (case‑id, activity, timestamp)。
Prefix Generation – 对每个病例，提取所有可能的前缀（例如，第 1 个事件后，第 2 个事件后，……）。每个前缀代表患者在某一时刻的状态。
Feature Engineering – 使用以下混合方式对前缀进行编码：
- One‑hot activity counts（每种临床活动出现的次数）
- Temporal features（自入院以来的时间、距上一次事件的时间）
- Aggregated clinical measurements（最新实验室数值、移动平均值）
Predictive Modeling – 在前缀特征上训练传统分类器（Logistic Regression、Random Forest、XGBoost）以预测二元目标 ICU admission。采用 case‑level split，确保同一患者的所有前缀全部位于训练集或测试集，避免信息泄漏。
Evaluation – 按前缀长度计算指标（AUC、F1‑score），评估在何时能够做出可靠的早期预测。

分析确认了两个核心观察：

实时临床决策支持 – 医院可以将该流水线嵌入其电子健康记录（EHR）系统，以在相关事件发生即刻标记高危患者，从而实现更早的干预（例如，主动准备 ICU）。
模块化、可复用的架构 – 由于该流水线依赖标准事件日志格式和现成的机器学习库，开发者可以通过最少的代码修改将其适配到其他路径（败血症、脑卒中、术后护理）中。
可扩展的监控 – 前缀生成的复杂度随事件数量线性增长，且模型（尤其是逻辑回归）体积轻量，使该方法适用于大型医院网络或基于云的健康分析平台。
可解释性 – 线性模型提供明确的系数解释（例如，“氧疗增加会使 ICU 风险翻倍”），这对临床医生和合规团队具有重要价值。

开发者的底线：本文提供了一个即插即用的流水线，将杂乱的健康数据转化为持续更新的风险评分，使用熟悉的机器学习工具和过程挖掘思路。如果你正在构建 AI 驱动的健康仪表盘、警报系统，或任何需要实时“倾听”患者旅程的应用，这里呈现的方法论和开源制品都是一个坚实的起点。