🦾 OpenAI:s genombrott i att förstå AI:s black box (så vi kan bygga säker AI)

OpenAI har funnit ett sätt att lösa en del av justeringsproblemet med AI. Så vi kan förstå och skapa säker AI.

Mathias Sundin 25.maj.20234 min read

Dela artikeln

Kikar in i den den svarta lådan

Ett problem med att skapa säker AI är att vi inte vet exakt hur en AI kommer fram till resultaten den presenterar. Om jag ber ChatGPT att skriva något så vet vi inte hur den kom fram till svaret. Arbetet sker i det man brukar kallar en black box.

Lösningen hittills har varit att manuellt titta på vilka neuroner i det neurala nätverket som aktiveras. Det är så klart ett extremt tidsödande uppdrag och inte praktiskt möjligt i någon stor skala.

OpenAI använde därför GPT4 för att testa om den kan förstå vad som pågår under huven. Och ja, det kunde den.

I ett paper visar de hur den kan spåra vilka neuroner som aktiveras och varför.

Längre ner i texten finns en mer utförlig förklaring av OpenAI:s paper.

Ett vanligt misstag, som leder till pessimism

En anledning till att många oroar sig för att hur vi ska (fortsätta) att skapa säker AI är att de inte vet hur det ska gå till.

En av de centrala personerna i den debatten är Eliezer Yudkowsky. Han tillhör de personer i världen som funderat allra mest kring dessa frågor. Detta är ett av de problem han pekat ut och han reagerar med förvåning på resultatet från OpenAI.

När man inte ser möjliga lösningar är det lätt att bli oroad och rädd och vilja pausa, stanna eller bromsa utvecklingen.

Det är ett väldigt vanligt misstag som framtidspessimister gör. De litar inte på att vi människor klarar att lösa problem i framtiden, bara för att vi inte löst dem ännu. Det leder till att människor som kanske inte alls är pessimistiska, blir det. (Det finns en anledning till vi kallar pessimister för naiva.)

Då kan de, likt Paul Ehrlich på 60-talet, tro att hundratals miljoner människor kommer svälta ihjäl. Men så löser vi problemen och istället lämnar hundratals miljoner människor extrem fattigdom.

Använd AI för att förstå AI

När det kommer till att lösa framtida problem med AI, så har vi ett nytt verktyg att hjälpa oss: AI.

Så här skrev jag i Aftonbladet för några veckor sedan:

Ska vi då ignorera möjliga problem och blåsa på? Såklart inte. Men vi ska ta de bästa verktygen till hjälp. Flera av de verktygen finns nu inom AI-området.

Om vi pausar utvecklingen kommer vi ha sämre verktyg och svårare att lösa problem. Samtidigt som vi missar alla de enorma fördelar och möjligheter som skapas.

Istället för att pausa AI-utvecklingen, ska vi lägga mer resurser i form av pengar, hjärnkapacitet och datakapacitet för att accelerera säkerhetsarbetet med AI.

Resultatet från OpenAI:s paper

Språkmodeller är datorprogram som kan generera eller förstå naturligt språk, som engelska eller franska. De är ofta baserade på neurala nätverk, som består av många sammanlänkade enheter kallade neuroner som kan bearbeta information och lära sig från data.

Neuroner i språkmodeller

är organiserade i lager, och varje lager utför en annan funktion, som att koda betydelsen av ord eller generera nästa ord i en mening.
kan observera något specifikt mönster i text, som ett ord, en fras, ett ämne, eller en grammatisk funktion, och aktiveras när de stöter på det.
kan påverka vad modellen säger härnäst genom att skicka signaler till andra neuroner i nästa lager eller outputlagret, vilket bestämmer sannolikheten för varje möjligt ord.

Tre steg

Papret föreslår en teknik som består av tre steg:

Visa neuronaktiveringar för GPT-4 och fråga det om vad som orsakar dem.
Simulera neuronaktiveringar med hjälp av GPT-4, beroende på förklaringen.
Poängsätt förklaringen genom att jämföra de simulerade och verkliga aktiveringarna.

Steg 1: Förklara neuronets aktiveringar med hjälp av GPT-4

Detta steg innebär att man visar en textinmatning och den motsvarande aktiveringen av ett neuron för GPT-4 och ber det skriva en naturlig språkförklaring till vad som får neuronet att aktiveras.

Till exempel, givet en textinmatning om Marvel-filmer och karaktärer, och ett neuron som aktiveras starkt på det, kan GPT-4 förklara att neuronet är känsligt för språk relaterat till Marvel-serier, filmer och karaktärer, samt annat innehåll med superhjältetema.

Målet med detta steg är att generera en kortfattad och intuitiv beskrivning av neuronets funktion som lätt kan förstås av människor.

Steg 2: Simulera aktiveringar med hjälp av GPT-4, beroende på förklaringen

Detta steg innebär att använda GPT-4 för att generera nya textinmatningar som skulle aktivera samma neuron, givet förklaringen från steg 1 som ett villkor.

Till exempel, givet förklaringen att neuronet är känsligt för språk relaterat till Marvel-serier, filmer och karaktärer, kan GPT-4 generera textinmatningar som "Spider-Man är en av de mest populära superhjältarna i Marvel-universumet" eller "The Avengers: Endgame var det episka slutet på Infinity Saga".

Målet med detta steg är att testa hur väl förklaringen fångar neuronets beteende och generera fler exempel på inmatningar som aktiverar neuronet.

Steg 3: Poängsätt förklaringen genom att jämföra de simulerade och verkliga aktiveringarna

Detta steg innebär att jämföra neuronets aktivering på den ursprungliga textinmatningen och de simulerade textinmatningarna genererade av GPT-4 i steg 2.

Jämförelsen görs genom att beräkna en korrelationskoefficient mellan de två uppsättningarna av aktiveringar, som varierar från -1 (perfekt negativ korrelation) till 1 (perfekt positiv korrelation).

Korrelationskoefficienten används som ett mått på hur väl förklaringen matchar neuronets beteende. En hög korrelation innebär att förklaringen är korrekt och konsekvent, medan en låg korrelation innebär att förklaringen är felaktig eller ofullständig.

Målet med detta steg är att kvantifiera hur tolkningsbart neuronet är och att ge en feedbacksignal för att förbättra förklaringen.

Mathias Sundin
Den arge optimisten

🧠 Artificiell intelligens naiva pessimister Den arge optimisten