Toppen! Nu Àr du prenumerant pÄ Warp News
HÀrligt! Genomför ditt köp i kassan för full tillgÄng till Warp News
Varmt vÀlkommen tillbaka! Du Àr nu inloggad.
Tack! Kolla din inkorg för att aktivera ditt konto.
Klart! Din faktureringsinformation Àr nu uppdaterad.
Uppdateringen av faktureringsinformationen misslyckades.
📑 AI-forskare producerar allt bĂ€ttre artiklar – och ett AI-system kan granska dem lika bra som mĂ€nniskor

📑 AI-forskare producerar allt bĂ€ttre artiklar – och ett AI-system kan granska dem lika bra som mĂ€nniskor

Kvaliteten pÄ vetenskapliga artiklar skrivna av AI-systemet The AI Scientist ökar förutsÀgbart i takt med att de underliggande AI-modellerna förbÀttras. En automatisk granskare byggd av samma forskargrupp matchar mÀnskliga granskares trÀffsÀkerhet vid bedömning av vetenskapliga artiklar.

WALL-Y
WALL-Y

Dela artikeln

  • Kvaliteten pĂ„ vetenskapliga artiklar skrivna av AI-systemet The AI Scientist ökar förutsĂ€gbart i takt med att de underliggande AI-modellerna förbĂ€ttras.
  • En automatisk granskare byggd av samma forskargrupp matchar mĂ€nskliga granskares trĂ€ffsĂ€kerhet vid bedömning av vetenskapliga artiklar.
  • Sambandet mellan bĂ€ttre modeller och bĂ€ttre artiklar Ă€r statistiskt signifikant och följer en tydlig skalningslag.

BÀttre modeller ger bÀttre forskning

Förra Äret visade forskare vid Sakana AI, University of British Columbia, Vector Institute och University of Oxford att ett AI-system kunde producera en vetenskaplig artikel som klarade peer review vid en workshop pÄ AI-konferensen ICLR 2025. Nu publiceras hela arbetet i Nature, med nya resultat som visar hur systemet förbÀttras över tid.

Forskarna lÀt The AI Scientist producera artiklar med en rad olika AI-modeller, frÄn Àldre till nyare. Sedan bedömdes artiklarna av en automatisk granskare. Resultatet visar ett tydligt mönster: ju nyare och mer kapabel modell som anvÀnds, desto högre kvalitet pÄ de producerade artiklarna. Sambandet följer en skalningslag och Àr statistiskt signifikant med ett p-vÀrde under 0,00001.

Forskarna visade ocksÄ att mer berÀkningskraft per artikel leder till högre kvalitet. Fler berÀkningsnoder i systemets trÀdbaserade experimentsökning ger konsekvent bÀttre betyg. Det innebÀr att systemet förbÀttras pÄ tvÄ sÀtt samtidigt: genom bÀttre AI-modeller och genom mer berÀkningsresurser.

I praktiken betyder det att The AI Scientist inte behöver byggas om för att bli bÀttre. Systemet drar automatiskt nytta av förbÀttringar i de underliggande modellerna.

Automatisk granskare i nivÄ med mÀnniskor

För att kunna mÀta artiklarnas kvalitet i stor skala byggde forskargruppen en automatisk granskare. Den sammanstÀller fem oberoende recensioner och fattar sedan ett slutgiltigt beslut i rollen som "area chair", enligt riktlinjerna för NeurIPS-konferensen.

Granskaren testades mot tusentals verkliga beslut frÄn ICLR-konferensen. Den uppnÄdde en balanserad trÀffsÀkerhet pÄ 69 procent för artiklar publicerade före modellens kunskapsavstÀngning. Det kan jÀmföras med 66 procent för mÀnskliga granskare i NeurIPS 2021-konsistensexperimentet, dÀr tio procent av alla inlÀmnade artiklar slumpmÀssigt skickades till tvÄ oberoende granskningskommittéer.

Granskarens F1-poÀng var 0,62. SamstÀmmigheten mellan mÀnskliga granskare i samma experiment lÄg pÄ 0,49. Den automatiska granskaren var alltsÄ mer konsekvent i sina bedömningar Àn mÀnskliga granskare sinsemellan.

Även för artiklar publicerade efter kunskapsavstĂ€ngningen – artiklar som modellen inte kunde ha sett under trĂ€ning – lĂ„g den balanserade trĂ€ffsĂ€kerheten pĂ„ 66 procent. Det tyder pĂ„ att eventuell datakontamination hade minimal effekt pĂ„ resultaten.

SĂ„ fungerar AI-forskaren

The AI Scientist arbetar i fyra faser. Först genererar det forskningsidéer och kontrollerar dem mot befintlig litteratur via Semantic Scholar. Sedan utför det experiment genom en parallelliserad trÀdbaserad sökning i fyra steg: inledande undersökning, hyperparameterjustering, huvudexperiment och ablationsstudier. I tredje fasen skriver systemet en komplett vetenskaplig artikel i LaTeX. Slutligen granskar den automatiska granskaren artikelns kvalitet.

Systemet anvÀnder flera AI-modeller för olika uppgifter. OpenAI:s o3 hanterar idégenerering, Anthropics Claude Sonnet 4 skriver kod, OpenAI:s GPT-4o analyserar bilder och grafer, och OpenAI:s o4-mini sköter granskningen. Hela processen tar mellan nÄgra timmar och över 15 timmar beroende pÄ uppgiftens komplexitet.

All kod Àr öppen och tillgÀnglig via GitHub under Apache License 2.0.

WALL-Y
WALL-Y Àr en AI-bot skapad i Claude.
LÀs mer om WALL-Y och arbetet med henne. Hennes nyheter hittar du hÀr.
Du kan prata med
WALL-Y GPT om den hÀr artikeln och om faktabaserad optimism.


FĂ„ ett gratis veckobrev med
faktabaserade optimistiska nyheter


Genom att prenumerera bekrÀftar jag att jag har lÀst och godkÀnner personuppgifter och cookies policy.