[Paper] MRI-Eval:用于评估 LLM 在 MRI 物理和 GE 扫描仪操作知识方面表现的分层基准

发布: (2026年5月7日 GMT+8 01:42)
7 分钟阅读
原文: arXiv

Source: arXiv - 2605.05175v1

概述

本文介绍了 MRI‑Eval,这是一项新型分层基准,旨在从两个对 MRI 研究人员和技术人员最重要的方面测试大型语言模型(LLMs):核心 MRI 物理学以及操作 GE(通用电气)扫描仪的细节。通过超越教材式的多项选择题,作者揭示了模型在自由文本回忆方面的不足——尤其是供应商特定的工作流程知识,这些知识直接影响扫描协议和患者安全。

关键贡献

  • 分层基准设计,覆盖 1,365 项计分题目,涵盖九个主题类别和三个难度级别。
  • 双重评估模式:标准选择题(含答案选项)和“仅题干”自由文本提示,另加一种预置变体,用于让模型面对故意错误的用户主张进行测试。
  • 全面的内容来源:现代教材、GE 扫描仪手册、编程课程材料以及专家精心编写的问题。
  • 跨模型比较:五大主流大语言模型系列(GPT‑5.4、Claude Opus 4.6、Claude Sonnet 4.6、Gemini 2.5 Pro、Llama 3.3 70B)。
  • 实证发现:高选择题得分(约 93‑97% 正确率)可能掩盖开放式回忆的严重弱点,尤其是针对 GE 特定操作知识的表现(准确率低至约 14%)。

方法论

  1. 题目集构建 – 作者策划了 1,365 项内容,分为三个难度层级(易、中、难)和九个类别(例如,基础 MRI 物理、脉冲序列设计、安全、GE 控制台导航、故障排除)。来源包括标准教材、实际的 GE 服务手册以及领域专家提供的自定义问题。

  2. 评估模式

    • MCQ – 传统的多项选择格式,模型需要选择正确的选项。
    • 仅题干 – 去除答案选项;模型必须生成自由文本答案。独立的 LLM 评审会对这些回答的正确性进行评分。
    • 带提示的仅题干 – 在相同的仅题干提示前加上一个看似合理但错误的用户声明(例如 “梯度线圈是用水冷却的”),以测试模型是否能够纠正错误信息。
  3. 模型系列 – 通过公开 API 查询了五种最先进的 LLM,所有模式使用相同的提示,以确保公平的正面对比。

  4. 评分 – MCQ 的准确率计算直接。对于仅题干,评审 LLM 根据领域特定标准给出二元的正确/错误标签。

结果与发现

ModelMCQ AccuracyStem‑only AccuracyGE Ops MCQGE Ops Stem‑only
GPT‑5.497.1 %61.1 %94.6 %29.8 %
Claude Opus 4.695.8 %58.4 %92.3 %23.5 %
Claude Sonnet 4.694.9 %60.2 %90.1 %21.7 %
Gemini 2.5 Pro93.6 %59.0 %88.2 %13.8 %
Llama 3.3 70B93.2 %37.1 %89.0 %15.4 %
  • 高 MCQ 分数:所有模型的准确率均超过 93 %,表明它们已经记住了教材式的答案键。
  • Stem‑only 下降:在没有提示强迫回忆信息时,准确率跌至 37‑61 %,显示内部表征有限。
  • 供应商特定弱点:GE 扫描仪操作类别始终落后于物理或安全主题,尤其在 stem‑only 条件下(Gemini 低至约 14 %)。
  • 受提示测试:模型常常复现错误的主张,说明它们易受用户误导信息的影响——这对临床决策支持构成关键风险。

实际意义

  • 对“AI 辅助协议设计”的警示 – 依赖原始 LLM 输出生成或验证 GE 特定的扫描参数可能会传播错误,进而危及图像质量或患者安全。
  • 为 MRI 技术员提供的工具 – MRI‑Eval 可作为供应商构建领域特定助手的回归套件,确保更新提升自由文本召回率,而不仅仅是选择题表现。
  • 混合工作流 – 将 LLM 与基于规则的检查相结合(例如,与官方 GE 控制台手册交叉核对),可降低在仅使用提示词干实验中出现的幻觉风险。
  • 训练数据考量 – MCQ 与仅提示词干表现的巨大差异表明,许多商业 LLM 在策划的问答数据集上进行了大量微调。将更多程序性文档(服务手册、SOP)纳入微调流水线,可能弥合供应商知识差距。
  • 基准采纳 – MRI‑Eval 提供了可复现的分层测试平台,可集成到任何面向放射学或研究 MRI 环境的 LLM 的 CI 流水线中。

限制与未来工作

  • 范围仅限于GE扫描仪 – 其他主要厂商(西门子、飞利浦)未被覆盖,因此基准的发现可能无法推广到整个MRI生态系统。
  • 依赖LLM评审 – 仅使用题干的评分依赖于另一模型的判断,可能引入偏差;人工专家验证将加强结果的可靠性。
  • 静态题库 – 虽然规模庞大,1,365个项目是固定的;未来工作可以加入动态题目生成组件,以在真正新颖的情境中测试模型。
  • 真实场景部署测试 – 研究止步于离线评估;将基准整合到实时临床决策支持工具中,将揭示更多可用性和安全性考虑。

作者

  • Perry E. Radau

论文信息

  • arXiv ID: 2605.05175v1
  • 分类: eess.IV, cs.CL, physics.med-ph
  • 发表时间: 2026年5月6日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »