[Paper] 不确定性感知的结构化数据提取:通过 Distilled LLMs 从完整 CMR 报告

发布: (2026年5月9日 GMT+8 01:35)
8 分钟阅读
原文: arXiv

Source: arXiv - 2605.08045v1

Overview

本文介绍了 CMR‑EXTR,一个轻量级系统,能够自动将自由文本的心脏磁共振(CMR)放射学报告转换为干净的结构化数据集——并标记出每个提取字段的置信度。通过将教师‑学生蒸馏管道与不确定性建模相结合,作者实现了近乎完美的提取准确率,并为临床医生提供了一种实用的方法,仅对可疑条目进行抽查。

关键贡献

  • CMR 专用抽取引擎,将叙述性的 CMR 报告转换为预定义的模式(例如,心室容积、射血分数、组织特征)。
  • 不确定性感知评分,针对每个字段,基于三种互补信号:分布合理性、抽样稳定性以及跨字段一致性。
  • 师生蒸馏工作流,利用大型语言模型(LLM)作为“教师”生成高质量伪标签,然后训练一个紧凑的“学生”模型,实现快速离线推理。
  • 实证验证显示,在真实世界的 CMR 报告语料库上达到 99.65 % 的变量级准确率,且置信分数能够可靠地区分正确与错误的抽取结果。
  • 开源发布(GitHub),便于在其他影像领域的采用和扩展。

方法论

  1. 数据准备 – 使用一套适度规模的手工标注的 CMR 报告(≈1 k)来定义目标模式并为系统提供种子数据。
  2. 教师模型 – 使用强大的 LLM(例如 GPT‑4‑style),提示其从原始报告中提取每个变量,生成高质量的“金标准”标签,省去大量人工工作。
  3. 学生模型 – 在教师生成的伪标签上训练一个轻量级 Transformer(≈30 M 参数),学习模仿提取行为,同时足够快速以实现本地部署。
  4. 不确定性建模 – 对每个提取字段计算三项分数:
    • 分布合理性:该值在该变量经验分布下的可能性(例如左心室射血分数为 200 % 是不合理的)。
    • 采样稳定性:多次随机前向传播(Monte‑Carlo dropout)得到的方差,指示模型置信度。
    • 跨字段一致性:相关字段之间的逻辑检查(例如,舒张末期容积应 ≥ 收缩末期容积)。
      将这些分数融合为单一置信度指标,可通过阈值将不确定条目转交人工审阅。
  5. 评估 – 在变量层面衡量提取准确率,并评估置信度分数区分正确与错误预测的能力(ROC‑AUC)。

结果与发现

  • 变量‑级准确率: 在 45 个结构化 CMR 变量上达到 99.65 % ,基本与人工抽取质量相匹配。
  • 置信度有效性: 组合不确定性得分在区分正确与错误抽取时得到 0.97 的 AUC,使得分流工作流能够将人工审查工作量降低 >80 % ,同时保持整体数据质量 >99 %。
  • 速度与占用: 学生模型在普通 CPU 上处理一份报告的时间 <200 ms,适合对大型医院档案进行批量处理,无需云端依赖。
  • 消融研究: 移除任意一个不确定性组成部分都会削弱分流性能,证实分布合理性、稳定性和一致性各自都有独特贡献。

实际意义

  • 快速构建队列: 研究人员可以大规模地从遗留报告中提取结构化的 CMR 表型,加速回顾性研究和多中心试验。
  • 临床决策支持: 实时提取管道可以将结构化测量输入风险计算器或基于 AI 的治疗推荐引擎,置信度标记确保临床医生仅在需要时介入。
  • 数据治理: 每个字段的置信度分数提供可审计的痕迹,满足卫生系统对数据来源和质量控制的监管要求。
  • 成本效益部署: 由于推理模型轻量且离线运行,医院可以将 CMR‑EXTR 集成到现有的 PACS/RIS 工作流中,而无需支付云计算费用或暴露 PHI。
  • 可扩展性: 教师‑学生框架可以在其他成像模态(如 CT、MRI)或报告类型(如超声心动图)上重新训练,只需极少的额外标注工作。

限制与未来工作

  • 领域特定性: 当前模式紧密耦合于 CMR 报告惯例;适配使用不同术语的机构可能需要重新定义模式并进行额外的微调。
  • 依赖伪标签: 虽然教师蒸馏减少了人工标注,但教师输出中的任何系统性偏差都会传播到学生模型。未来工作可以加入人机交互的纠正环路以减轻此问题。
  • 不确定性校准: 置信分数在经验上有效,但未正式校准;探索贝叶斯深度学习或共形预测可能提供更具理论依据的不确定性估计。
  • 纵向一致性: 系统独立处理报告;整合跨系列研究的时间信息可能提升对细微测量漂移或报告错误的检测。

CMR‑EXTR 表明,通过巧妙使用大型语言模型和不确定性建模,从自由文本放射学报告中提取高质量结构化数据不再是仅限研究的问题——它已准备好用于生产流水线,赋能临床医生和数据科学家。

作者

  • Yi Yu
  • Parker Martin
  • Zhenyu Bu
  • Yixuan Liu
  • Yi‑Yu Zheng
  • Orlando Simonetti
  • Yuchi Han
  • Yuan Xue

论文信息

  • arXiv ID: 2605.08045v1
  • 分类: cs.CL
  • 发表时间: 2026年5月8日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »