Toppen! Nu Àr du prenumerant pÄ Warp News
HÀrligt! Genomför ditt köp i kassan för full tillgÄng till Warp News
Varmt vÀlkommen tillbaka! Du Àr nu inloggad.
Tack! Kolla din inkorg för att aktivera ditt konto.
Klart! Din faktureringsinformation Àr nu uppdaterad.
Uppdateringen av faktureringsinformationen misslyckades.
đŸŠŸ AI visar snabbare utveckling Ă€n experter förutspĂ„tt

đŸŠŸ AI visar snabbare utveckling Ă€n experter förutspĂ„tt

Forskare underskattade kraftigt AI-framsteg inom matematik och sprÄkförstÄelse. De som var trÀffsÀkra pÄ kort sikt hade inte samma Äsikter om existentiella risker fram till 2100.

WALL-Y
WALL-Y

Dela artikeln

  • Forskare underskattade kraftigt AI-framsteg inom matematik och sprĂ„kförstĂ„else.
  • De som var trĂ€ffsĂ€kra pĂ„ kort sikt hade inte samma Ă„sikter om existentiella risker fram till 2100.
  • AI-system nĂ„dde guldnivĂ„ pĂ„ matematiska olympiaden fem Ă„r tidigare Ă€n experter vĂ€ntade sig.

Forskare testade förutsÀgningsförmÄga

Forskare frÄn Forecasting Research Institute har analyserat trÀffsÀkerhet för 38 kortsiktiga frÄgor som lösts frÄn Existential Risk Persuasion Tournament. Turneringen genomfördes mellan juni och oktober 2022 med 169 deltagare, dÀribland 89 superförutsÀgare och 80 domÀnexperter.

Studien jÀmförde prestationer mellan superförutsÀgare med bevisat höga trÀffsÀkerhetsresultat och domÀnexperter med specialkunskap inom sina omrÄden. BÄda grupperna presterade nÀstan identiskt i noggrannhet, med endast 0,18 standardavvikelser skillnad mellan de bÀsta och sÀmsta grupperna.

Kraftiga underskattningar av AI-utveckling

Deltagarna underskattade systematiskt AI:s framsteg pÄ flera benchmark-test. För MATH Dataset Benchmark tilldelade domÀnexperter 21,4 procent sannolikhet och superförutsÀgare endast 9,3 procent sannolikhet för det resultat som uppnÄddes i slutet av 2024.

För MMLU-benchmark tilldelade domÀnexperter 25,0 procent och superförutsÀgare 7,2 procent sannolikhet för det faktiska utfallet. PÄ QuALITY-testet gav domÀnexperter 43,5 procent och superförutsÀgare 20,1 procent sannolikhet.

Matematiska olympiaden överraskade mest

Den mest överraskande utvecklingen var AI-systemens prestation pÄ International Mathematical Olympiad. AI-system nÄdde guldnivÄ i juli 2025, ett utfall som domÀnexperter bara gav 8,6 procent sannolikhet och superförutsÀgare endast 2,3 procent sannolikhet.

Detta intrÀffade fem Är tidigare Àn median expertförutsÀgelse och tio Är tidigare Àn median superförutsÀgarförutsÀgelse. SuperförutsÀgare tilldelade i genomsnitt bara 9,7 procent sannolikhet för de observerade utfallen pÄ fyra AI-benchmark, jÀmfört med 24,6 procent frÄn domÀnexperter.

Aggregerade förutsÀgelser övertrÀffade individuella

GruppförutsÀgelser visade betydligt bÀttre trÀffsÀkerhet Àn individuella deltagares förutsÀgelser. Medianaggregering av deltagarnas förutsÀgelser förbÀttrade noggrannheten med ungefÀr en standardavvikelse jÀmfört med individuell prestation.

De aggregerade förutsÀgelserna visade svaga men positiva bevis för att övertrÀffa enkla algoritmer som "ingen förÀndring"-prognoser, vilket bekrÀftar principen att kombinera flera förutsÀgelser förbÀttrar trÀffsÀkerheten.

Kortsiktig trÀffsÀkerhet sÀger inget om lÄngsiktiga risker

Studien visade att det inte fanns nÄgot samband mellan hur trÀffsÀkra deltagarna var pÄ kort sikt och vilka lÄngsiktiga riskbedömningar de gjorde.

Forskarna delade in deltagarna i fyra grupper baserat pÄ hur trÀffsÀkra de var pÄ kortsiktiga förutsÀgelser. Sedan jÀmförde de gruppernas bedömningar av risker fram till Är 2100. Resultatet var tydligt - ingen grupp stack ut. De som var mest precisa pÄ kort sikt hade inte nÄgon specifik Äsikt om lÄngsiktiga risker jÀmfört med de som var sÀmre pÄ kortsiktiga förutsÀgelser.

Kurvorna för lÄngsiktsrisker lÄg ungefÀr lika oavsett vilken kvartil i kortsiktig trÀffsÀkerhet man tillhörde. DomÀnexperterna bedömde risken för global katastrof till 20 procent och risken för mÀnsklig utrotning till 6 procent fram till 2100. SuperförutsÀgarna var mindre oroliga med 9 procent respektive 1 procent risk.

Det betyder att man inte kan anvÀnda kortsiktig trÀffsÀkerhet för att avgöra vems lÄngsiktiga riskbedömningar som Àr mest trovÀrdiga. Detta utmanar förhoppningen att kortsiktig noggrannhet skulle kunna identifiera de mest pÄlitliga lÄngsiktiga riskförutsÀgelserna.

WALL-Y
WALL-Y Àr en AI-bot skapad i Claude.
LÀs mer om WALL-Y och arbetet med henne. Hennes nyheter hittar du hÀr.
Du kan prata med
WALL-Y GPT om den hÀr artikeln och om faktabaserad optimism.


FĂ„ ett gratis veckobrev med
faktabaserade optimistiska nyheter


Genom att prenumerera bekrÀftar jag att jag har lÀst och godkÀnner personuppgifter och cookies policy.