[Paper] SurvHTE-Bench：用于生存分析中异质处理效应估计的基准

发布: 1天前 (2026年3月6日 GMT+8 02:52)

9 分钟阅读

原文: arXiv

Source: arXiv - 2603.05483v1

概述

本文介绍了 SurvHTE‑Bench，这是首个开源基准套件，专门用于评估在结果为右删失生存时间时的异质处理效应（HTE）估计器。通过提供具有已知真实值的合成、半合成和真实世界数据集，作者为研究人员和工程师提供了一个共同的实验平台，以公平且可重复地比较因果生存方法。

关键贡献

全面的基准套件，覆盖三种数据情境：完全合成、半合成（真实协变量 + 模拟处理/结果）以及真实世界（双胞胎研究和 HIV 试验）。
系统性地变更因果假设（例如比例风险、处理效应异质性、删失机制），以在现实违规情况下对算法进行压力测试。
所有合成和半合成场景的真实 HTE 标签，以及通过基因匹配已知真实效应的双胞胎研究数据集。
可扩展的模块化设计，让用户能够以最小摩擦插入新模型、度量或数据生成器。
首次大规模实证比较了最先进的生存 HTE 方法（因果生存森林、存活元学习器、结果插补方法等）在完整基准上的表现。
开源发布（代码和数据），采用宽松许可证，鼓励社区贡献和可重复性。

方法论

数据集生成
- Synthetic：定义一个参数化的生存模型（例如 Weibull 或 Cox），并由用户指定协变量分布、治疗分配机制和删失过程。真实的个体治疗效应（ITE）可以解析计算。
- Semi‑synthetic：使用真实的电子健康记录协变量（例如来自 MIMIC‑IV），然后使用相同的参数族模拟治疗分配和事件时间，保留真实的特征相关性。
- Real‑world：使用双胞胎登记库，其中一名双胞胎接受治疗，另一名未接受（提供自然的反事实），以及一项 HIV 临床试验，具有完善的结局记录。
评估流程
- 将每个数据集划分为训练/验证/测试折。
- 在训练集上拟合候选 HTE 估计器（估计器可以是因果森林、T‑learner、X‑learner、DR‑learner 等，针对删失数据进行适配）。
- 在测试集上预测个体治疗效应。
- 计算 因果生存指标，例如：
  - PEHE（异质效应估计精度），针对生存曲线进行调整。
  - 用于风险排序的 C‑index。
  - 用于预测生存函数校准的 Integrated Brier Score。
- 在多个数据生成随机种子上汇总结果，以评估稳健性。
基线算法
- 实现最常见的生存‑HTE 方法，并统一封装为统一 API。包括：
  - Causal Survival Forests（CSF）
  - 采用 Cox 或 Weibull 基学习器的生存元学习器（T‑、S‑、X‑learners）
  - 通过对删失时间进行多重插补的结果插补方法
  - 深度学习模型（例如基于 DeepSurv 的元学习器）

结果与发现

设置	表现最佳的模型族	典型 PEHE（数值越低越好）	主要观察
完全合成（比例风险）	因果生存森林（Causal Survival Forests）	0.12	当真实风险是分段常数时，基于树的方法表现出色。
合成且存在非比例风险	X‑learner + Weibull 基模型	0.18	能分别建模处理组/对照组风险的元学习器更好地适应随时间变化的效应。
半合成（真实协变量，复杂删失）	DeepSurv‑X‑learner	0.21	深度模型能够捕获高维交互，但需要谨慎的正则化。
双胞胎研究（已知真实值）	CSF（调优后）	0.15	即使样本量有限，基于森林的方法也能以适度方差恢复真实的个体处理效应（ITE）。
HIV 试验（真实结果，无真实值）	生存 T‑learner（Cox）	—	能一致地对高风险患者进行排序；然而在缺乏真实值的情况下，绝对效应估计的可靠性较低。

要点

没有单一方法能够在所有情境下都占优势；方法的选择取决于底层的生存动态和删失程度。
基于树的因果森林对风险函数的错误设定具有鲁棒性，而元学习器在处理效应随时间演变时表现更佳。
深度学习方法能够利用丰富的协变量结构，但对超参数选择敏感，且在小样本且存在删失的情况下容易过拟合。

Practical Implications

Precision Medicine Platforms 可以将 SurvHTE‑Bench 接入其模型选择工作流，在将候选 HTE 估计器部署到患者数据之前进行基准测试，确保所选方法与疾病的生存模式相匹配（例如，癌症 vs. 慢性感染）。
Policy‑as‑a‑Service 提供商（例如针对就业安置等时间‑到‑事件结果的社会项目）可以使用现成的测试平台，在真实的掉失/审查率下验证因果冲击估计器。
MLOps pipelines 可以集成该基准的模块化数据生成器，生成合成回归测试，以在更新因果‑生存库时捕捉回归问题。
开源库（如 causalml、econml、scikit-survival）可以将 SurvHTE‑Bench 采用为标准验证套件，类似于 ImageNet 在计算机视觉模型中的作用。

限制与未来工作

假设覆盖：虽然基准覆盖了许多因果情景，但仍依赖参数生存模型（Weibull、Cox）。高度不规则或涉及竞争风险的真实风险并未得到充分体现。
规模：最大的人造数据集约有 5 万条样本；数百万规模的超大 EHR 队列可能会暴露出此处未捕获的可扩展性瓶颈。
反事实真实值：仅有双胞胎研究提供了自然的反事实；其他真实数据集仍缺乏经验证的 ITE，限制了外部验证。
未来方向：作者提出的建议包括将套件扩展到多治疗和时变治疗方案，加入竞争风险框架，并增加用于不确定性量化的基准任务（例如 HTE 的置信区间）。

SurvHTE‑Bench 为开发者提供了一个实用、可复现的 playground，能够在触及高风险数据之前测试和比较因果生存算法。通过标准化评估，它为在医疗及其他领域实现更可靠、透明且最终产生更大影响的治疗效果个性化奠定了基础。

作者

Shahriar Noroozizadeh
Xiaobin Shen
Jeremy C. Weiss
George H. Chen

论文信息

arXiv ID: 2603.05483v1
分类: cs.LG, cs.AI, stat.ML
发表时间: 2026年3月5日
PDF: 下载 PDF

[Paper] SurvHTE-Bench：用于生存分析中异质处理效应估计的基准

概述

关键贡献

方法论

结果与发现

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[Paper] RoboPocket：使用你的手机即时改进机器人策略

Spike、Sparse 与 Sink：大规模激活与 Attention Sinks 的解剖

[Paper] 朝向可证明无偏的 LLM 评审者通过偏差受限评估

[Paper] 奇异贝叶斯模型中的热力学响应函数