[Paper] 使用 SafeTerm Medical Map 自动生成自定义 MedDRA 查询

发布: (2025年12月9日 GMT+8 00:33)
7 min read
原文: arXiv

Source: arXiv - 2512.07694v1

概览

本文介绍了 SafeTerm,一个基于 AI 的系统,能够自动构建自定义 MedDRA 查询——监管机构和制药公司在药物安全审查中使用的标准不良事件术语列表。通过将医学术语嵌入高维向量空间,并使用统计相似度分数对候选术语进行排序,SafeTerm 能以最小的人力投入检索相关的 MedDRA 首选术语(PT),提供一种快速、可复现的替代方案,取代劳动密集的手工过程。

主要贡献

  • 端到端 AI 流水线,将自由文本安全查询转换为排序后的 MedDRA PT 列表。
  • 向量空间表示 查询词和 MedDRA PT,实现基于余弦相似度的匹配。
  • 极值聚类 将高度相似的 PT 分组,避免生成列表中的冗余。
  • 多准则统计评分 在可调相似度阈值下平衡精确率和召回率。
  • 全面验证 对 FDA 新药办公室自定义医学查询(OCMQ)v3.0(104 条精心策划的查询)进行验证,报告不同阈值下的精确率、召回率和 F1。
  • 实用推荐 默认相似度阈值约为 0.60 作为初始运行,需更严格术语选择时可使用更高阈值。

方法论

  1. 数据准备 – 作者提取了所有有效的 MedDRA 首选术语(≈ 23 k PT)以及 104 条 FDA OCMQ 查询,每条查询由专家策划的一组 PT 组成。
  2. 嵌入生成 – 使用预训练的生物医学语言模型(如 BioBERT 或类似模型),将每个词(包括查询词和 PT)转换为密集向量。向量捕捉同义词、层级医学概念等语义关系。
  3. 相似度计算 – 对于给定的输入查询,系统计算查询嵌入与每个 PT 嵌入之间的余弦相似度。
  4. 极值聚类 – 将彼此极其接近的 PT(相似度高)聚类;仅保留每个簇中最具代表性的 PT,以降低噪声和重复。
  5. 评分与排序 – 每个 PT 根据其相似度值和簇统计信息获得相关性得分,然后按从高到低排序。
  6. 阈值调优 – 通过改变相似度阈值(如 0.60、0.70、0.75),系统可以在召回率(捕获更多真实 PT)和精确率(减少误报)之间进行权衡。

整个流水线全自动运行,仅需安全信号的文本描述作为输入。

结果与发现

相似度阈值召回率精确率F1
0.60(推荐起始)> 95 %~ 30 %
0.70 – 0.75(最佳平衡)~ 50 %~ 33 %~ 40 %
> 0.80(高精度模式)< 30 %高达 86 %
  • 低阈值下的高召回率 表明 SafeTerm 能检索到几乎所有人工专家会包含的 PT,具备可靠的安全网功能。
  • 随着阈值升高,精确率显著提升,使开发者在需要时能够生成简洁且高置信度的术语列表。
  • 窄域子集(聚焦于小的医学概念的查询)表现与完整查询相似,但为保持精确率需要略高的阈值。

总体而言,系统展示了单一约 0.60 的相似度阈值即可提供稳固的基线,而对阈值的细调则可根据具体项目需求定制输出。

实际意义

  • 加速安全信号检测 – 药物警戒团队可以在秒级生成 MedDRA 查询草稿,而非数天,从而让分析师专注于解释而非术语检索。
  • 一致且可复现的查询构建 – 基于向量的方法消除不同专家词汇差异带来的变异,支持监管审计和跨团队协作。
  • 可集成到现有流水线 – SafeTerm 可封装为微服务(REST API),并从数据摄取工作流、基于 EHR 的不良事件监测工具或上市后监测仪表盘中调用。
  • 新治疗领域的快速原型 – 当出现新药物类别时,SafeTerm 能在领域专家尚未策划完整查询前快速建议相关 PT。
  • 成本降低 – 自动化大部分查询生成工作,减少高技能医学编码员的工时,为制药公司和 CRO 带来可量化的节约。

局限性与未来工作

  • 精确率上限 – 即使在最高阈值下,系统仍会产生相当数量的误报,需要人工复审步骤以获得最终批准。
  • 对嵌入质量的依赖 – 性能取决于底层生物医学语言模型;更新的模型(如 PubMed‑LLM)可能进一步提升语义匹配。
  • 静态 MedDRA 版本 – 本研究使用单一 MedDRA 发行版;未来工作应评估跨版本的鲁棒性。
  • 可解释性 – 虽然余弦相似度直观,但向临床医生提供明确的理由(如高亮同义词)将提升信任度。
  • 向层级查询的扩展 – 融入 MedDRA 的层级结构(SOC、HLGT、HLT)可实现超越平面 PT 列表的更细致查询生成。

通过解决上述问题,SafeTerm 有望从一个有用的助手发展为药物安全生态系统中完全自主的组件。

作者

  • Francois Vandenhende
  • Anna Georgiou
  • Michalis Georgiou
  • Theodoros Psaras
  • Ellie Karekla
  • Elena Hadjicosta

论文信息

  • arXiv ID: 2512.07694v1
  • 分类: cs.CL
  • 发布日期: 2025 年 12 月 8 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »