하버드 연구에서 AI가 두 명의 인간 의사보다 더 정확한 응급실 진단을 제공

발행: 19시간 전 (2026년 5월 4일 AM 03:00 GMT+9)

6 분 소요

Source: TechCrunch

새로운 연구는 대형 언어 모델이 실제 응급실 사례를 포함한 다양한 의료 상황에서 어떻게 수행되는지를 조사했습니다 — 최소 하나의 모델이 인간 의사보다 더 정확한 것으로 보였습니다.

이 연구는 이번 주에 Science에 출판되었습니다 그리고 하버드 의과대학 및 베스 이스라엘 디코니스 메디컬 센터의 의사와 컴퓨터 과학자들이 이끄는 연구팀이 수행했습니다. 연구진은 OpenAI 모델과 인간 의사를 비교하기 위해 다양한 실험을 진행했습니다.

실험 개요

각 진단 단계에서 o1은 두 전임 의사 및 4o와 비교했을 때 명목상으로 더 나은 성과를 보였거나 동등했습니다.
차이는 정보가 부족하고 긴급성이 가장 높은 초기 진단 단계(응급실 초기 트리아지)에서 가장 두드러졌습니다.
각 진단 시점에 사용할 수 있는 전자 의료 기록 데이터를 그대로 사용했을 때(전처리 없이), o1은 트리아지 사례의 **67 %**에서 “정확히 혹은 매우 근접한 진단”을 제공했으며, 이는 한 의사에서는 55 %, 다른 의사에서는 **50 %**에 해당합니다.

“우리는 AI 모델을 거의 모든 기준에 대해 테스트했으며, 이전 모델과 우리 의사 기준을 모두 능가했습니다.”라고 하버드 의과대학 AI 연구소 책임자이자 연구의 주요 저자인 Arjun Manrai가 말했습니다.

연구진은 이 연구가 AI가 응급실에서 실제 생사를 가르는 결정을 내릴 준비가 되었다고 주장하는 것이 아니라는 점을 강조합니다. 대신, 결과는 “실제 환자 치료 환경에서 이러한 기술을 평가하기 위한 전향적 시험이 긴급히 필요함”을 보여줍니다.

연구는 텍스트 기반 정보에만 초점을 맞추었으며, 기존 연구에 따르면 기초 모델은 비텍스트 입력에 대한 추론 능력이 더 제한적이라고 합니다.
현재 AI가 생성한 진단에 대한 공식적인 책임 프레임워크가 없으며, 이는 연구의 주요 저자 중 한 명인 Adam Rodman이 강조한 점으로, 환자들은 여전히 “생사를 가르는 결정에서 인간이 안내해 주길 원한다”고 경고했습니다.

Kristen Panthagani(응급 의사)는 연구 헤드라인이 “과대광고”라고 지적하며, AI가 내과 전임 의사와 비교되었지 ER 전임 의사와는 비교되지 않았다고 강조했습니다. 그녀는 ER 의사가 처음 환자를 볼 때 궁극적인 진단을 추측하는 것이 목표가 아니라, 환자가 치명적인 상태인지 여부를 판단하는 것이 목표라고 주장했습니다.

“AI 도구를 의사의 임상 능력과 비교하려면 실제로 그 전문 분야를 수행하는 의사와 비교해야 합니다.”라고 Panthagani는 말했습니다.
가디언 인터뷰에서 Rodman은 AI 진단에 대한 공식적인 책임 프레임워크가 부족하고, 위급 상황에서 환자들이 여전히 인간의 안내를 선호한다는 점을 강조했습니다.

이 게시물과 헤드라인은 연구의 진단이 내과 전임 의사에 의해 이루어졌음을 반영하도록 업데이트되었으며, Kristen Panthagani의 논평이 포함되었습니다.