[Paper] MRI-Eval:用于评估 LLM 在 MRI 物理和 GE 扫描仪操作知识方面表现的分层基准
发布: (2026年5月7日 GMT+8 01:42)
7 分钟阅读
原文: arXiv
Source: arXiv - 2605.05175v1
概述
本文介绍了 MRI‑Eval,这是一项新型分层基准,旨在从两个对 MRI 研究人员和技术人员最重要的方面测试大型语言模型(LLMs):核心 MRI 物理学以及操作 GE(通用电气)扫描仪的细节。通过超越教材式的多项选择题,作者揭示了模型在自由文本回忆方面的不足——尤其是供应商特定的工作流程知识,这些知识直接影响扫描协议和患者安全。
关键贡献
- 分层基准设计,覆盖 1,365 项计分题目,涵盖九个主题类别和三个难度级别。
- 双重评估模式:标准选择题(含答案选项)和“仅题干”自由文本提示,另加一种预置变体,用于让模型面对故意错误的用户主张进行测试。
- 全面的内容来源:现代教材、GE 扫描仪手册、编程课程材料以及专家精心编写的问题。
- 跨模型比较:五大主流大语言模型系列(GPT‑5.4、Claude Opus 4.6、Claude Sonnet 4.6、Gemini 2.5 Pro、Llama 3.3 70B)。
- 实证发现:高选择题得分(约 93‑97% 正确率)可能掩盖开放式回忆的严重弱点,尤其是针对 GE 特定操作知识的表现(准确率低至约 14%)。
方法论
-
题目集构建 – 作者策划了 1,365 项内容,分为三个难度层级(易、中、难)和九个类别(例如,基础 MRI 物理、脉冲序列设计、安全、GE 控制台导航、故障排除)。来源包括标准教材、实际的 GE 服务手册以及领域专家提供的自定义问题。
-
评估模式
- MCQ – 传统的多项选择格式,模型需要选择正确的选项。
- 仅题干 – 去除答案选项;模型必须生成自由文本答案。独立的 LLM 评审会对这些回答的正确性进行评分。
- 带提示的仅题干 – 在相同的仅题干提示前加上一个看似合理但错误的用户声明(例如 “梯度线圈是用水冷却的”),以测试模型是否能够纠正错误信息。
-
模型系列 – 通过公开 API 查询了五种最先进的 LLM,所有模式使用相同的提示,以确保公平的正面对比。
-
评分 – MCQ 的准确率计算直接。对于仅题干,评审 LLM 根据领域特定标准给出二元的正确/错误标签。
结果与发现
| Model | MCQ Accuracy | Stem‑only Accuracy | GE Ops MCQ | GE Ops Stem‑only |
|---|---|---|---|---|
| GPT‑5.4 | 97.1 % | 61.1 % | 94.6 % | 29.8 % |
| Claude Opus 4.6 | 95.8 % | 58.4 % | 92.3 % | 23.5 % |
| Claude Sonnet 4.6 | 94.9 % | 60.2 % | 90.1 % | 21.7 % |
| Gemini 2.5 Pro | 93.6 % | 59.0 % | 88.2 % | 13.8 % |
| Llama 3.3 70B | 93.2 % | 37.1 % | 89.0 % | 15.4 % |
- 高 MCQ 分数:所有模型的准确率均超过 93 %,表明它们已经记住了教材式的答案键。
- Stem‑only 下降:在没有提示强迫回忆信息时,准确率跌至 37‑61 %,显示内部表征有限。
- 供应商特定弱点:GE 扫描仪操作类别始终落后于物理或安全主题,尤其在 stem‑only 条件下(Gemini 低至约 14 %)。
- 受提示测试:模型常常复现错误的主张,说明它们易受用户误导信息的影响——这对临床决策支持构成关键风险。
实际意义
- 对“AI 辅助协议设计”的警示 – 依赖原始 LLM 输出生成或验证 GE 特定的扫描参数可能会传播错误,进而危及图像质量或患者安全。
- 为 MRI 技术员提供的工具 – MRI‑Eval 可作为供应商构建领域特定助手的回归套件,确保更新提升自由文本召回率,而不仅仅是选择题表现。
- 混合工作流 – 将 LLM 与基于规则的检查相结合(例如,与官方 GE 控制台手册交叉核对),可降低在仅使用提示词干实验中出现的幻觉风险。
- 训练数据考量 – MCQ 与仅提示词干表现的巨大差异表明,许多商业 LLM 在策划的问答数据集上进行了大量微调。将更多程序性文档(服务手册、SOP)纳入微调流水线,可能弥合供应商知识差距。
- 基准采纳 – MRI‑Eval 提供了可复现的分层测试平台,可集成到任何面向放射学或研究 MRI 环境的 LLM 的 CI 流水线中。
限制与未来工作
- 范围仅限于GE扫描仪 – 其他主要厂商(西门子、飞利浦)未被覆盖,因此基准的发现可能无法推广到整个MRI生态系统。
- 依赖LLM评审 – 仅使用题干的评分依赖于另一模型的判断,可能引入偏差;人工专家验证将加强结果的可靠性。
- 静态题库 – 虽然规模庞大,1,365个项目是固定的;未来工作可以加入动态题目生成组件,以在真正新颖的情境中测试模型。
- 真实场景部署测试 – 研究止步于离线评估;将基准整合到实时临床决策支持工具中,将揭示更多可用性和安全性考虑。
作者
- Perry E. Radau
论文信息
- arXiv ID: 2605.05175v1
- 分类: eess.IV, cs.CL, physics.med-ph
- 发表时间: 2026年5月6日
- PDF: 下载 PDF