[Paper] MRI-Eval：用于评估 LLM 在 MRI 物理和 GE 扫描仪操作知识方面表现的分层基准

发布: 4天前 (2026年5月7日 GMT+8 01:42)

7 分钟阅读

原文: arXiv

Source: arXiv - 2605.05175v1

概述

本文介绍了 MRI‑Eval，这是一项新型分层基准，旨在从两个对 MRI 研究人员和技术人员最重要的方面测试大型语言模型（LLMs）：核心 MRI 物理学以及操作 GE（通用电气）扫描仪的细节。通过超越教材式的多项选择题，作者揭示了模型在自由文本回忆方面的不足——尤其是供应商特定的工作流程知识，这些知识直接影响扫描协议和患者安全。

关键贡献

分层基准设计，覆盖 1,365 项计分题目，涵盖九个主题类别和三个难度级别。
双重评估模式：标准选择题（含答案选项）和“仅题干”自由文本提示，另加一种预置变体，用于让模型面对故意错误的用户主张进行测试。
全面的内容来源：现代教材、GE 扫描仪手册、编程课程材料以及专家精心编写的问题。
跨模型比较：五大主流大语言模型系列（GPT‑5.4、Claude Opus 4.6、Claude Sonnet 4.6、Gemini 2.5 Pro、Llama 3.3 70B）。
实证发现：高选择题得分（约 93‑97% 正确率）可能掩盖开放式回忆的严重弱点，尤其是针对 GE 特定操作知识的表现（准确率低至约 14%）。

方法论

题目集构建 – 作者策划了 1,365 项内容，分为三个难度层级（易、中、难）和九个类别（例如，基础 MRI 物理、脉冲序列设计、安全、GE 控制台导航、故障排除）。来源包括标准教材、实际的 GE 服务手册以及领域专家提供的自定义问题。
评估模式
- MCQ – 传统的多项选择格式，模型需要选择正确的选项。
- 仅题干 – 去除答案选项；模型必须生成自由文本答案。独立的 LLM 评审会对这些回答的正确性进行评分。
- 带提示的仅题干 – 在相同的仅题干提示前加上一个看似合理但错误的用户声明（例如 “梯度线圈是用水冷却的”），以测试模型是否能够纠正错误信息。
模型系列 – 通过公开 API 查询了五种最先进的 LLM，所有模式使用相同的提示，以确保公平的正面对比。
评分 – MCQ 的准确率计算直接。对于仅题干，评审 LLM 根据领域特定标准给出二元的正确/错误标签。

结果与发现

Model	MCQ Accuracy	Stem‑only Accuracy	GE Ops MCQ	GE Ops Stem‑only
GPT‑5.4	97.1 %	61.1 %	94.6 %	29.8 %
Claude Opus 4.6	95.8 %	58.4 %	92.3 %	23.5 %
Claude Sonnet 4.6	94.9 %	60.2 %	90.1 %	21.7 %
Gemini 2.5 Pro	93.6 %	59.0 %	88.2 %	13.8 %
Llama 3.3 70B	93.2 %	37.1 %	89.0 %	15.4 %

高 MCQ 分数：所有模型的准确率均超过 93 %，表明它们已经记住了教材式的答案键。
Stem‑only 下降：在没有提示强迫回忆信息时，准确率跌至 37‑61 %，显示内部表征有限。
供应商特定弱点：GE 扫描仪操作类别始终落后于物理或安全主题，尤其在 stem‑only 条件下（Gemini 低至约 14 %）。
受提示测试：模型常常复现错误的主张，说明它们易受用户误导信息的影响——这对临床决策支持构成关键风险。

实际意义

对“AI 辅助协议设计”的警示 – 依赖原始 LLM 输出生成或验证 GE 特定的扫描参数可能会传播错误，进而危及图像质量或患者安全。
为 MRI 技术员提供的工具 – MRI‑Eval 可作为供应商构建领域特定助手的回归套件，确保更新提升自由文本召回率，而不仅仅是选择题表现。
混合工作流 – 将 LLM 与基于规则的检查相结合（例如，与官方 GE 控制台手册交叉核对），可降低在仅使用提示词干实验中出现的幻觉风险。
训练数据考量 – MCQ 与仅提示词干表现的巨大差异表明，许多商业 LLM 在策划的问答数据集上进行了大量微调。将更多程序性文档（服务手册、SOP）纳入微调流水线，可能弥合供应商知识差距。
基准采纳 – MRI‑Eval 提供了可复现的分层测试平台，可集成到任何面向放射学或研究 MRI 环境的 LLM 的 CI 流水线中。

限制与未来工作

范围仅限于GE扫描仪 – 其他主要厂商（西门子、飞利浦）未被覆盖，因此基准的发现可能无法推广到整个MRI生态系统。
依赖LLM评审 – 仅使用题干的评分依赖于另一模型的判断，可能引入偏差；人工专家验证将加强结果的可靠性。
静态题库 – 虽然规模庞大，1,365个项目是固定的；未来工作可以加入动态题目生成组件，以在真正新颖的情境中测试模型。
真实场景部署测试 – 研究止步于离线评估；将基准整合到实时临床决策支持工具中，将揭示更多可用性和安全性考虑。

作者

Perry E. Radau

论文信息

arXiv ID: 2605.05175v1
分类: eess.IV, cs.CL, physics.med-ph
发表时间: 2026年5月6日
PDF: 下载 PDF

相关文章

阅读更多 »

[Paper] LLMs 改进 LLMs：Agentic Discovery 用于 Test-Time Scaling

测试时扩展（Test-time scaling，TTS）已成为通过在推理期间分配额外计算来提升大型语言模型性能的有效方法。H...

[Paper] 记忆诅咒：扩展回忆如何侵蚀 LLM Agents 的合作意图

Context window expansion 通常被视为对 LLM 的一次直接能力升级，但我们发现它在多代理社会困境中系统性地失效……

[Paper] CA‑SQL：复杂度感知推理时间推理用于 Text-to‑SQL 的探索与计算预算分配

虽然近期在推理时学习方面的进展提升了 LLM 在 Text-to-SQL 任务上的推理能力，但当前的解决方案仍然难以在 m...

[Paper] 不确定性感知的结构化数据提取：通过 Distilled LLMs 从完整 CMR 报告

将自由文本的心脏磁共振 (CMR) 报告转换为可审计的结构化数据仍然是队列构建、纵向策划以及……的瓶颈。