하버드 연구: AI, 인간 의사 두 명보다 응급실 진단 더 정확

새로운 연구는 실제 응급실 사례를 포함하여 다양한 의료 상황에서 대규모 언어 모델이 어떻게 수행되는지 조사합니다. 최소 하나의 모델이 인간 의사보다 더 정확해 보였습니다.

이 연구는 이번 주 Science에 발표되었으며 Harvard Medical School과 Beth Israel Deaconess Medical Center의 의사와 컴퓨터 과학자들이 이끄는 연구팀이 진행했습니다.연구원들은 OpenAI의 모델이 인간 의사와 어떻게 비교되는지 측정하기 위해 다양한 실험을 수행했다고 말했습니다.

한 실험에서 연구원들은 Beth Israel 응급실에 온 76명의 환자에 초점을 맞춰 두 명의 내과 주치의가 제공한 진단과 OpenAI의 o1 및 4o 모델에서 생성된 진단을 비교했습니다.이 진단은 두 명의 다른 주치의가 평가했는데, 어떤 진단이 인간에게서 나온 것인지, 어떤 것이 AI에서 나온 것인지 알지 못했습니다.

"각 진단 접점에서 o1은 두 명의 주치의보다 명목상 더 나은 성과를 보였으며 4o는 그 차이가 특히 환자에 대해 이용 가능한 정보가 가장 적고 가장 시급한 첫 번째 진단 접점(초기 응급실 분류)에서 두드러졌다고 덧붙였습니다.

이 연구에 대한 하버드 의과대학의 보도 자료에서 연구원들은 "데이터를 전혀 사전 처리"하지 않았다는 점을 강조했습니다. AI 모델에는 각 진단 당시 전자 의료 기록에서 사용할 수 있는 것과 동일한 정보가 제공되었습니다.

이러한 정보를 통해 o1 모델은 분류 사례의 67%에서 "정확하거나 매우 근접한 진단"을 제공했습니다.정확하거나 근접한 진단을 받은 경우는 55%, 다른 사람에게 있는 경우는 50%였습니다.

"우리는 사실상 모든 벤치마크에 대해 AI 모델을 테스트했는데 이전 모델과 의사 기준을 모두 능가했습니다."라고 하버드 의과대학 AI 연구소 소장이자 해당 연구의 주요 저자 중 한 명인 Arjun Manrai는 보도 자료에서 말했습니다.

하버드 연구: AI, 인간 의사 두 명보다 응급실 진단 더 정확

관련 글