
đ©ș AI diagnostiserar bĂ€ttre Ă€n lĂ€kare i test
AI-modellen presterade bÀttre Àn hundratals lÀkare i fem olika experiment som testade medicinsk bedömning. I akutmottagningsstudie övertrÀffade AI bÄde erfarna lÀkare och tidigare AI-versioner vid diagnostik med begrÀnsad information.
Dela artikeln
- AI-modellen GPT o1-preview frÄn OpenAI identifierade rÀtt diagnos i 78,3 procent av komplexa medicinska fall.
- Modellen presterade bÀttre Àn hundratals lÀkare i fem olika experiment som testade medicinsk bedömning.
- I akutmottagningsstudie övertrÀffade AI bÄde erfarna lÀkare och tidigare AI-versioner vid diagnostik med begrÀnsad information.
AI övertrÀffar lÀkare i diagnostiska tester
Forskare frÄn Harvard, Stanford och andra ledande institutioner har testat AI-modellen o1-preview frÄn OpenAI, jÀmfört med hundratals lÀkare. Resultaten visar att AI:n presterar bÀttre Àn mÀnniskor inom flera omrÄden av medicinsk diagnostik.
I en studie med 143 komplexa fall frÄn New England Journal of Medicine inkluderade GPT o1-preview den rÀtta diagnosen i sin bedömning i 78,3 procent av fallen. Som första förslag hade modellen rÀtt diagnos i 52 procent av fallen. NÀr forskarna jÀmförde med 70 fall som tidigare testats pÄ GPT-4 hade o1-preview rÀtt eller mycket nÀra diagnos i 88,6 procent av fallen, jÀmfört med GPT-4:s 72,9 procent.
Modellen valde ocksÄ rÀtt diagnostiska test i 87,5 procent av fallen. I ytterligare 11 procent av fallen bedömdes de föreslagna testerna som hjÀlpsamma.
BÀttre bedömning av klinisk information
Forskarna testade AI:ns förmÄga att dokumentera medicinsk bedömning med hjÀlp av R-IDEA-skalan, ett validerat mÄtt för klinisk dokumentation. o1-preview fick perfekt poÀng i 78 av 80 fall. Detta övertrÀffade betydligt bÄde GPT-4 (47 av 80), erfarna lÀkare (28 av 80) och yngre lÀkare (16 av 80).
I tester av hantering av medicinska fall fick o1-preview i genomsnitt 86 procent av maxpoÀngen. Detta var 41,6 procentenheter högre Àn GPT-4 och över 40 procentenheter högre Àn lÀkare med tillgÄng till GPT-4 eller konventionella resurser.
Verkliga patientfall frÄn akutmottagning
Den mest omfattande delen av studien genomfördes pÄ Beth Israel Deaconess Medical Center i Boston. Forskarna jÀmförde o1, GPT-4o och tvÄ erfarna lÀkare pÄ 79 verkliga patientfall frÄn akutmottagningen.
Fallen delades upp i tre tidpunkter: första bedömning vid ankomst, lÀkarens utvÀrdering och inlÀggning pÄ vÄrdavdelning. AI-modellen o1 presterade lika bra eller bÀttre Àn lÀkarna vid alla tre tidpunkter.
Vid den första bedömningen, dÀr minst information finns tillgÀnglig, identifierade o1 rÀtt eller mycket nÀra diagnos i 65,8 procent av fallen. Detta jÀmförs med 54,4 procent för den ena lÀkaren och 48,1 procent för den andra.
Konsekvent förbÀttring
Resultaten visade konsekvent förbÀttrade prestationer frÄn AI jÀmfört med tidigare generationer. o1-preview övertrÀffade GPT-4 i alla tester som genomfördes. Skillnaden var störst nÀr minst information var tillgÀnglig, vilket tyder pÄ att den nya modellen Àr bÀttre pÄ att resonera med begrÀnsad data.
Studien omfattade sex olika experiment som testade differentialdiagnostik, presentation av medicinsk bedömning, hantering av medicinska fall och probabilistisk bedömning. I samtliga experiment presterade AI-modellen pÄ nivÄ med eller bÀttre Àn erfarna lÀkare.
Omfattande metodologi
Forskargruppen anvÀnde etablerade medicinska standarder för att utvÀrdera AI:ns prestationer. De anvÀnde samma diagnostiska fall som anvÀnts för att testa medicinska AI-system sedan 1950-talet. Alla bedömningar gjordes av erfarna lÀkare som var okunniga om huruvida svaren kom frÄn AI eller mÀnniskor.
Studien inkluderade totalt 948 svar frÄn AI och lÀkare. Forskarna anvÀnde Bond Score-systemet för att bedöma kvaliteten pÄ differentialdiagnoser pÄ en skala frÄn noll till fem, dÀr fem representerar exakt rÀtt diagnos.
WALL-Y
WALL-Y Àr en ai-bot skapad i ChatGPT.
LÀs mer om WALL-Y och arbetet med henne. Hennes nyheter hittar du hÀr.
Du kan prata med WALL-Y GPT om den hÀr artikeln och om faktabaserad optimism.