[Paper] 使用可解释机器学习预测长效注射剂的早期和完全药物释放

发布: (2026年1月6日 GMT+8 00:49)
7 min read
原文: arXiv

Source: arXiv - 2601.02265v1

概述

长效注射剂(LAIs)是基于聚合物的药物储库,可在数周或数月内释放药物,显著提升慢性疾病的依从性。在本文中,Robles 和 Samad 展示了一种专门设计的、可解释的机器学习流水线,能够预测 321 种 LAI 配方的早期(24‑72 小时)和完整释放曲线,同时揭示哪些材料属性驱动这些结果。

关键贡献

  • 自定义数据转换,将异质体外释放曲线转换为适用于标准机器学习模型的格式。
  • 三个预测任务
    1. 对 24 h、48 h、72 h 的累计释放进行回归预测。
    2. 对释放曲线类型进行分类(例如单相、双相、三相)。
    3. 对完整释放动力学进行全曲线预测。
  • 通过 SHAP(Shapley additive explanations)实现可解释性,量化配方变量(聚合物类型、药物负载、粒径等)对早期与后期释放的影响。
  • 时间无关建模,在复杂的双相/三相释放模式下优于传统的时间相关方法。
  • 开源实现(代码和已训练模型),实现可重复性并便于配方科学家快速采用。

方法论

  1. 数据集策划 – 从文献中数字化了321种LAI配方,每个配方标注了23个理化描述符(聚合物化学、药物属性、粒子形貌等)以及相应的体外释放曲线。
  2. 特征工程 – 使用一组与时间无关的描述符(例如曲线下面积、早期释放斜率)对释放曲线进行概括,以将学习问题与显式时间序列建模解耦。
  3. 模型套件 – 使用梯度提升树(XGBoost)和随机森林进行回归和分类任务的训练。通过嵌套交叉验证调优超参数,以避免在相对较小的数据集上过拟合。
  4. 可解释性 – 为每个预测计算SHAP值,使作者能够对配方属性的重要性进行排序,并可视化它们如何使预测值升高或降低。
  5. 评估 – 对早期释放回归的Pearson r(> 0.65 在72 h),对曲线类型分类的宏平均F1‑score(0.87),以及对完整曲线预测的平均绝对误差,均在保留的测试集上报告。

结果与发现

  • 早期释放预测: 预测的累计释放与实际测量的相关系数在 24 h 时为 0.71,72 h 时提升至 0.78,表明模型捕捉到了主导的早期释放机制。
  • 曲线类型分类: 模型能够区分单相、双相和三相释放曲线,整体 F1‑score 为 0.87,即使在数据有限的情况下也能实现可靠的分类。
  • 完整释放建模: 单一的、时间无关模型能够重建完整的释放曲线,准确再现传统时间相关模型难以处理的延迟双相和三相模式。
  • 特征洞察: SHAP 分析显示 聚合物降解速率药物‑聚合物亲和力(log P)粒径分布 是早期释放的主要驱动因素,而 聚合物分子量交联密度 则在后期完整释放阶段占主导。

实际意义

  • 加速配方设计:研发团队可以将候选聚合物‑药物组合输入公开可用的模型,以快速获得早期释放估计,从而减少昂贵的实验室实验。
  • 风险缓解:通过了解哪些属性对延迟释放影响最大,制造商可以在放大过程中提前优先采用稳健的控制策略(例如,更严格的粒径规格)。
  • 监管支持:可解释的预测为配方选择提供基于数据的理由,可纳入 IND/MAA 申报,以展示对释放行为的机理理解。
  • 平台扩展:该时间无关框架可通过最小的再训练适配到其他储库系统(例如微球、原位成胶),为各类药物递送项目提供可重复使用的工具。

局限性与未来工作

  • 数据集规模与多样性: 虽然321种配方对长效注射剂(LAI)研究而言已算可观,但化学空间仍受限;对新型聚合物或生物制剂的性能仍需验证。
  • 体外与体内转化: 模型预测的是体外释放;要将其转化为体内药代动力学,需要额外的生理描述符(例如组织扩散、免疫反应)。
  • 动态条件: 当前方法假设释放介质是静态的;未来的工作可以加入pH或酶降解的变化,以模拟更真实的植入环境。
  • 模型泛化: 探索直接输入原始释放曲线的深度学习架构可能进一步提升对高度不规则曲线的准确性,但会以可解释性为代价。

作者

  • Karla N. Robles
  • Manar D. Samad

论文信息

  • arXiv ID: 2601.02265v1
  • 分类: q-bio.BM, cs.LG
  • 发表时间: 2026年1月5日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »