하버드 연구에서 AI가 응급실 의사보다 더 정확한 진단을 제공했다

발행: 1일 전 (2026년 5월 4일 AM 03:00 GMT+9)

5 분 소요

Source: TechCrunch

Study Overview

새로운 연구는 대형 언어 모델이 실제 응급실 사례를 포함한 다양한 의료 상황에서 어떻게 수행되는지를 조사합니다. 이 중 최소 하나의 모델이 인간 의사보다 더 정확한 것으로 보였습니다. 이 연구는 이번 주에 Science에 발표되었습니다(https://www.science.org/doi/10.1126/science.adz4433) 그리고 하버드 의과대학 및 베스 이스라엘 디코네스 의료센터의 의사와 컴퓨터 과학자들이 이끄는 연구팀에 의해 수행되었습니다. 연구원들은 OpenAI 모델과 인간 의사를 비교하기 위해 다양한 실험을 진행했습니다.

Methodology

한 실험에서는 베스 이스라엘 응급실에 방문한 76명의 환자를 대상으로, 두 명의 주치의가 내린 진단과 OpenAI의 o1 및 4o 모델이 생성한 진단을 비교했습니다. 이 진단들은 출처(인간 vs. AI)를 알 수 없도록 블라인드된 두 명의 다른 주치의에 의해 평가되었습니다.

연구는 AI 모델에게 각 진단 시점에 전자 의료 기록에 존재하는 동일한 정보를 제공했으며, 데이터 전처리 없이 진행되었다는 점을 강조했습니다.

Results

각 진단 단계에서 o1은 두 명의 주치의 및 4o와 비교했을 때 명목상 더 나은 성과를 보이거나 동등한 수준을 유지했습니다.
차이는 특히 정보가 부족하고 긴급성이 높은 첫 번째 진단 단계(초기 ER 트리아지)에서 두드러졌습니다.
동일한 트리아지 정보를 사용했을 때, o1 모델은 **67 %**의 경우 “정확하거나 매우 근접한 진단”을 제공했으며, 이는 한 명의 의사(55 %)와 다른 의사(50 %)보다 높은 수치였습니다.

하버드 의과대학 AI 연구실을 이끌고 연구의 주요 저자 중 한 명인 Arjun Manrai는 “우리는 AI 모델을 거의 모든 벤치마크에 대해 테스트했으며, 이전 모델과 우리의 의사 기준을 모두 능가했다”고 말했습니다.

Implications

이 연구는 AI가 응급실에서 실제 생사를 가르는 결정을 내릴 준비가 되었다고 주장하지 않습니다. 대신, 이러한 기술을 실제 환자 치료 환경에서 평가하기 위한 전향적 시험의 긴급한 필요성을 강조합니다.

연구진은 또한 이번 연구가 텍스트 기반 정보에 대해서만 성능을 조사했으며, “기존 연구에 따르면 현재의 기반 모델은 비텍스트 입력에 대한 추론 능력이 더 제한적이다”라고 언급했습니다.

Commentary

베스 이스라엘 의사이자 연구 공동 저자인 Adam Rodman은 The Guardian에서 “현재 AI 진단에 대한 책임성을 위한 공식적인 프레임워크가 없으며, 환자들은 여전히 ‘생사를 가르는 결정’과 ‘어려운 치료 결정’에 있어 인간이 안내해 주길 원한다”고 경고했습니다. (https://www.theguardian.com/technology/2026/apr/30/ai-outperforms-doctors-in-harvard-trial-of-emergency-triage-diagnoses)

References

Study publication: https://www.science.org/doi/10.1126/science.adz4433
Harvard Medical School press release: https://hms.harvard.edu/news/study-suggests-ai-good-enough-diagnosing-complex-medical-cases-warrant-clinical-testing
Guardian article: https://www.theguardian.com/technology/2026/apr/30/ai-outperforms-doctors-in-harvard-trial-of-emergency-triage-diagnoses

하버드 연구에서 AI가 응급실 의사보다 더 정확한 진단을 제공했다

Study Overview

Methodology

Results

Implications

Commentary

References

관련 글

실험: 반복 사용이 RAG와 유사한 설정에서 ChatGPT 5.4 출력에 영향을 미칩니까?

AI ‘Intelligence‑Authority’ 격차: 왜 당신의 에이전트는 Deterministic Handbrake가 필요한가

Claude와 Microsoft Copilot, 켄터키 더비 우승자를 다시 예측에 실패

클로드 망상: 리처드 도킨스는 그의 AI 챗봇이 의식이 있다고 믿는다