在哈佛研究中,AI 提供的急诊室诊断比两位人类医生更准确
Source: TechCrunch
一项新研究考察了大型语言模型在多种医疗情境中的表现,包括真实的急诊案例——其中至少有一种模型的准确度似乎超过了人类医生。
该研究本周发表于《Science》(链接),由哈佛医学院和贝斯以色列迪康尼斯医疗中心的医生和计算机科学家领衔的研究团队完成。研究人员进行了一系列实验,以衡量 OpenAI 模型与人类医生的比较。
实验概览
- 患者: 76 名在贝斯以色列急诊室就诊的个体。
- 对照组: 两位内科主治医师 vs. OpenAI 的 o1 与 4o 模型。
- 评估方式: 由另外两位对来源(人类 vs. AI)盲审的主治医师对诊断结果进行评估。
关键发现
- 在每个诊断节点,o1 的表现名义上优于或与两位主治医师以及 4o 持平。
- 差异在第一个诊断节点(初始急诊分诊)最为显著,此时信息稀缺且紧迫性最高。
- 使用每次诊断时可获得的相同电子病历数据(无预处理),o1 在 67 % 的分诊案例中给出了“完全相同或非常接近的诊断”,而两位医生分别为 55 % 和 50 %。
“我们几乎对所有基准都测试了 AI 模型,它的表现超越了之前的模型以及我们的医生基线,”Arjun Manrai 说,他是哈佛医学院 AI 实验室负责人,也是本研究的第一作者。
研究人员强调,该研究并不声称 AI 已经可以在急诊室做出生死攸关的决策。相反,研究结果凸显了“迫切需要前瞻性试验,以在真实的患者护理环境中评估这些技术”。
局限性
- 研究仅考察了基于 文本信息 的表现;已有研究表明,基础模型在处理非文本输入时的推理能力更受限。
- 目前尚未存在针对 AI 生成诊断的正式问责框架,研究的另一位主要作者 Adam Rodman 强调,患者仍然“希望有人类在生死决策中为他们指引方向”。
反响与评论
-
急诊医生 Kristen Panthagani 指出,研究的标题被“过度夸大”,因为 AI 是与内科医生而非急诊医生进行比较。她认为,当急诊医生第一次见到患者时,首要目标 不是 猜测最终诊断,而是判断患者是否患有可能致命的疾病。
“如果我们要把 AI 工具与医生的临床能力进行比较,应该先与实际从事该专科的医生进行比较,”Panthagani 说。
-
在接受《卫报》采访时,Rodman 强调了 AI 诊断缺乏正式问责框架的问题,并指出患者在关键决策中仍然更倾向于获得人类的指导。
该帖子和标题已更新,以反映研究中的诊断来自内科主治医师,并加入了 Kristen Panthagani 的评论。