在哈佛研究中,AI 提供的诊断比急诊室医生更准确
Source: TechCrunch
Study Overview
一项新研究考察了大型语言模型在多种医学情境中的表现,包括真实的急诊室案例——其中至少有一种模型的准确率超过了人类医生。该研究本周发表在《Science》(https://www.science.org/doi/10.1126/science.adz4433),由哈佛医学院和贝斯以色列女执事医疗中心的医生和计算机科学家团队主导。研究人员进行了一系列实验,以衡量 OpenAI 模型与人类医生的比较。
Methodology
在一项实验中,研究者聚焦于 76 名进入贝斯以色列急诊室的患者,比较两位主治医生给出的诊断与 OpenAI 的 o1 和 4o 模型生成的诊断。这些诊断随后由另外两位主治医生评估,评估者对诊断来源(人类 vs. AI)保持盲态。
研究强调,AI 模型使用的都是诊断时电子病历中可获得的相同信息,未对数据进行任何预处理。
Results
- 在每个诊断节点,o1 要么表现略好于,要么与两位主治医生和 4o 持平。
- 差异在首个诊断节点(初始急诊分诊)尤为显著,此时信息稀缺且紧迫性高。
- 使用相同的分诊信息,o1 模型在 67 % 的病例中提供了“完全相同或非常接近的诊断”,而两位医生分别为 55 % 和 50 %。
哈佛医学院 AI 实验室负责人、该研究的主要作者之一 Arjun Manrai 表示:“我们几乎对每一个基准都测试了 AI 模型,它的表现超越了以往模型以及我们的医生基线。”
Implications
该研究并未声称 AI 已经可以在急诊室做出生死决策。相反,它强调迫切需要前瞻性试验,以在真实的患者护理环境中评估这些技术。
研究人员还指出,研究仅考察了基于文本信息的表现,并且“现有研究表明,当前的基础模型在处理非文本输入时的推理能力更受限制。”
Commentary
贝斯以色列医生、该研究的共同作者 Adam Rodman 在《卫报》上警告称,目前围绕 AI 诊断缺乏“正式的责任框架”,患者仍然“希望有人类在生死抉择以及复杂治疗决策中为他们提供指导”。(https://www.theguardian.com/technology/2026/apr/30/ai-outperforms-doctors-in-harvard-trial-of-emergency-triage-diagnoses)
References
- Study publication: https://www.science.org/doi/10.1126/science.adz4433
- Harvard Medical School press release: https://hms.harvard.edu/news/study-suggests-ai-good-enough-diagnosing-complex-medical-cases-warrant-clinical-testing
- Guardian article: https://www.theguardian.com/technology/2026/apr/30/ai-outperforms-doctors-in-harvard-trial-of-emergency-triage-diagnoses