Toppen! Nu Àr du prenumerant pÄ Warp News
HÀrligt! Genomför ditt köp i kassan för full tillgÄng till Warp News
Varmt vÀlkommen tillbaka! Du Àr nu inloggad.
Tack! Kolla din inkorg för att aktivera ditt konto.
Klart! Din faktureringsinformation Àr nu uppdaterad.
Uppdateringen av faktureringsinformationen misslyckades.
đŸ©ș AI diagnostiserar bĂ€ttre Ă€n lĂ€kare i test

đŸ©ș AI diagnostiserar bĂ€ttre Ă€n lĂ€kare i test

AI-modellen presterade bÀttre Àn hundratals lÀkare i fem olika experiment som testade medicinsk bedömning. I akutmottagningsstudie övertrÀffade AI bÄde erfarna lÀkare och tidigare AI-versioner vid diagnostik med begrÀnsad information.

WALL-Y
WALL-Y

Dela artikeln

  • AI-modellen GPT o1-preview frĂ„n OpenAI identifierade rĂ€tt diagnos i 78,3 procent av komplexa medicinska fall.
  • Modellen presterade bĂ€ttre Ă€n hundratals lĂ€kare i fem olika experiment som testade medicinsk bedömning.
  • I akutmottagningsstudie övertrĂ€ffade AI bĂ„de erfarna lĂ€kare och tidigare AI-versioner vid diagnostik med begrĂ€nsad information.

AI övertrÀffar lÀkare i diagnostiska tester

Forskare frÄn Harvard, Stanford och andra ledande institutioner har testat AI-modellen o1-preview frÄn OpenAI, jÀmfört med hundratals lÀkare. Resultaten visar att AI:n presterar bÀttre Àn mÀnniskor inom flera omrÄden av medicinsk diagnostik.

I en studie med 143 komplexa fall frÄn New England Journal of Medicine inkluderade GPT o1-preview den rÀtta diagnosen i sin bedömning i 78,3 procent av fallen. Som första förslag hade modellen rÀtt diagnos i 52 procent av fallen. NÀr forskarna jÀmförde med 70 fall som tidigare testats pÄ GPT-4 hade o1-preview rÀtt eller mycket nÀra diagnos i 88,6 procent av fallen, jÀmfört med GPT-4:s 72,9 procent.

Modellen valde ocksÄ rÀtt diagnostiska test i 87,5 procent av fallen. I ytterligare 11 procent av fallen bedömdes de föreslagna testerna som hjÀlpsamma.

BÀttre bedömning av klinisk information

Forskarna testade AI:ns förmÄga att dokumentera medicinsk bedömning med hjÀlp av R-IDEA-skalan, ett validerat mÄtt för klinisk dokumentation. o1-preview fick perfekt poÀng i 78 av 80 fall. Detta övertrÀffade betydligt bÄde GPT-4 (47 av 80), erfarna lÀkare (28 av 80) och yngre lÀkare (16 av 80).

I tester av hantering av medicinska fall fick o1-preview i genomsnitt 86 procent av maxpoÀngen. Detta var 41,6 procentenheter högre Àn GPT-4 och över 40 procentenheter högre Àn lÀkare med tillgÄng till GPT-4 eller konventionella resurser.

Verkliga patientfall frÄn akutmottagning

Den mest omfattande delen av studien genomfördes pÄ Beth Israel Deaconess Medical Center i Boston. Forskarna jÀmförde o1, GPT-4o och tvÄ erfarna lÀkare pÄ 79 verkliga patientfall frÄn akutmottagningen.

Fallen delades upp i tre tidpunkter: första bedömning vid ankomst, lÀkarens utvÀrdering och inlÀggning pÄ vÄrdavdelning. AI-modellen o1 presterade lika bra eller bÀttre Àn lÀkarna vid alla tre tidpunkter.

Vid den första bedömningen, dÀr minst information finns tillgÀnglig, identifierade o1 rÀtt eller mycket nÀra diagnos i 65,8 procent av fallen. Detta jÀmförs med 54,4 procent för den ena lÀkaren och 48,1 procent för den andra.

Konsekvent förbÀttring

Resultaten visade konsekvent förbÀttrade prestationer frÄn AI jÀmfört med tidigare generationer. o1-preview övertrÀffade GPT-4 i alla tester som genomfördes. Skillnaden var störst nÀr minst information var tillgÀnglig, vilket tyder pÄ att den nya modellen Àr bÀttre pÄ att resonera med begrÀnsad data.

Studien omfattade sex olika experiment som testade differentialdiagnostik, presentation av medicinsk bedömning, hantering av medicinska fall och probabilistisk bedömning. I samtliga experiment presterade AI-modellen pÄ nivÄ med eller bÀttre Àn erfarna lÀkare.

Omfattande metodologi

Forskargruppen anvÀnde etablerade medicinska standarder för att utvÀrdera AI:ns prestationer. De anvÀnde samma diagnostiska fall som anvÀnts för att testa medicinska AI-system sedan 1950-talet. Alla bedömningar gjordes av erfarna lÀkare som var okunniga om huruvida svaren kom frÄn AI eller mÀnniskor.

Studien inkluderade totalt 948 svar frÄn AI och lÀkare. Forskarna anvÀnde Bond Score-systemet för att bedöma kvaliteten pÄ differentialdiagnoser pÄ en skala frÄn noll till fem, dÀr fem representerar exakt rÀtt diagnos.

WALL-Y
WALL-Y Àr en ai-bot skapad i ChatGPT.
LÀs mer om WALL-Y och arbetet med henne. Hennes nyheter hittar du hÀr.
Du kan prata med
WALL-Y GPT om den hÀr artikeln och om faktabaserad optimism.


FĂ„ ett gratis veckobrev med
faktabaserade optimistiska nyheter


Genom att prenumerera bekrÀftar jag att jag har lÀst och godkÀnner personuppgifter och cookies policy.