[Paper] Multi-RADS 合成放射学报告数据集与 41 种 Open-Weight 与专有语言模型的正面对比基准测试

发布: (2026年1月7日 GMT+8 02:18)
7 min read
原文: arXiv

Source: arXiv - 2601.03232v1

Overview

本文介绍了 RXL‑RADSet,这是一套新的合成基准,包含 1,600 份放射学报告,覆盖十种不同的报告与数据系统(RADS),如 BI‑RADS、LI‑RADS 和 Lung‑RADS。作者将这些报告输入 41 种开源小型语言模型(SLM)以及一款专有的 “GPT‑5.2” 模型,评估当前大型语言模型在自动分配正确 RADS 标签方面的表现——这一任务因指南复杂且输出格式严格受限而众所周知地困难。

关键贡献

  • RXL‑RADSet 数据集:1,600 份经放射科医师验证的合成报告,涵盖 10 个 RADS 类别和多种成像模态。
  • 综合基准:对 41 个量化开源模型(0.135 B – 32 B 参数)以及专有的 GPT‑5.2 模型进行逐一评估。
  • 提示研究:系统比较引导提示(结构化提示并附带明确指令)与零‑shot 提示。
  • 规模分析:实证表明模型性能在参数量超过约 10 B 时显著提升,且在 sub‑1 B 与 ≥10 B 模型之间存在明显拐点。
  • 错误分类:发现复杂 RADS 上的大部分准确率下降源于分类难度,而非输出格式错误。

方法论

  1. Synthetic report generation – 作者首先为每个 RADS 类别构建情景“计划”(例如,典型发现、边缘案例),并使用现有的大语言模型(LLMs)撰写符合放射科医生风格的报告。
  2. Two‑stage radiologist verification – 首位审阅者检查事实一致性;第二位审阅者确认正确的 RADS 标签,从而得到高质量的真实标签。
  3. Model suite – 来自 12 个系列的 41 个开源权重 SLM(如 LLaMA、Mistral、Falcon)被量化,以在普通 GPU 上高效运行。GPT‑5.2 作为专有基线。
  4. Prompt design – 所有模型均收到 固定引导提示,明确要求给出 RADS 标签及所需的输出格式。并行的零‑shot 运行则省略了该引导。
  5. Evaluation metrics
    • Validity:模型是否输出语法上正确的 RADS 标签?
    • Accuracy:标签是否与放射科医生验证的真实标签相匹配?
      两项指标均按报告计算,并在整个基准测试中进行汇总。

结果与发现

模型家族(规模)有效性准确率
GPT‑5.2(专有)99.8 %81.1 %
所有 SLM(合并)96.8 %61.1 %
顶级 SLM(20‑32 B)≈99 %70‑78 %
  • 规模效应:参数量低于 1 B 的模型有效性约为 90 %,准确率约为 45 %;而参数量 ≥10 B 的模型则跃升至 >95 % 的有效性和 >70 % 的准确率。
  • 提示影响:使用引导提示可将有效性从 96.7 %(零样本)提升至 99.2 %,并将准确率从 69.6 % 提高到 78.5 %。
  • 复杂度惩罚:采用更细粒度类别的 RADS 方案(如 PI‑RADS、VI‑RADS)会导致准确率下降幅度更大,主要原因是误分类,而非输出格式错误。

实际意义

  • Clinical decision support – 即使是中等规模的开源模型(≈20 B)也能可靠地从叙述性报告中提取 RADS 评分,为放射科部门的自动分诊、审计流程和质量控制仪表板打开大门。
  • Cost‑effective deployment – 量化的 SLM 可以在单个 GPU 上运行,这意味着医院或健康科技初创公司可以在无需昂贵 API 调用的情况下实现接近专有水平的性能。
  • Standardization across modalities – 由于 RXL‑RADSet 涵盖 CT、MRI、超声和乳腺摄影,单一模型即可通过微调或提示来处理多模态报告,减少对特定模态解析器的需求。
  • Regulatory reporting – 自动 RADS 分配可以通过标记缺少适当评分的报告,帮助满足合规要求(例如乳腺癌筛查的 BI‑RADS)。

限制与未来工作

  • 合成性质 – 虽然经放射科医生验证,但报告是由大型语言模型生成的,可能无法捕捉真实口述的全部变异性,尤其是罕见的极端案例。
  • RADS 范围 – 基准覆盖了十个 RADS 系统,但许多子专科(例如儿科放射学)使用额外或定制的评分方案。
  • 模型多样性 – 仅测试了量化后的开源权重模型;更大的稀疏激活模型或检索增强模型可能会改变性能曲线。
  • 提示工程 – 本研究使用了单一的引导提示;探索提示集合或链式思考提示可能进一步缩小与专有模型的差距。

底线:RXL‑RADSet 提供了一个亟需的、公开可用的 RADS 提取基准,结果表明,只要采用合适的提示策略,开发者现在就可以构建实用、低成本的 LLM 驱动放射报告工具,而无需完全依赖闭源 API。

作者

  • Kartik Bose
  • Abhinandan Kumar
  • Raghuraman Soundararajan
  • Priya Mudgil
  • Samonee Ralmilay
  • Niharika Dutta
  • Manphool Singhal
  • Arun Kumar
  • Saugata Sen
  • Anurima Patra
  • Priya Ghosh
  • Abanti Das
  • Amit Gupta
  • Ashish Verma
  • Dipin Sudhakaran
  • Ekta Dhamija
  • Himangi Unde
  • Ishan Kumar
  • Krithika Rangarajan
  • Prerna Garg
  • Rachel Sequeira
  • Sudhin Shylendran
  • Taruna Yadav
  • Tej Pal
  • Pankaj Gupta

论文信息

  • arXiv ID: 2601.03232v1
  • 分类: cs.CL, cs.AI
  • 出版日期: 2026年1月6日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »