🎞 AI kan automatiskt beskriva bilder för blinda och synskadade

En ny teknik gör att AI kan beskriva bilder bättre än vad en människa kan, vilket kan vara till stor hjälp för synskadade som använder datorer och mobiler.

Kent Olofsson 24.okt.20202 min read

Dela artikeln

Det finns mycket bilder på webben och det kan vara ett problem för blinda och synskadade. De kan få texten uppläst av en digital röst, men information i bilder går de ofta miste om. Det går att lägga in text som beskriver bilden och som då läses upp, men den texten måste läggas in manuellt och det är det många som glömmer.

Men nu kan Microsoft ha en lösning på problemet. Företaget har nämligen utvecklat en AI-lösning som är lika bra som, eller rent av bättre än, människor på att beskriva bilder. Microsoft har redan en sådan lösning, men den nya varianten ska vara dubbelt så bra.

Vivo, som lösningen heter, finns redan i Microsofts Seeing AI som är en app för att hjälpa blinda och synskadade att få information från bilder. Men för att ge tekniken mer spridning finns den också som en del av Azure Cognitive Services. Det gör att utvecklare som använder Microsofts Azure kan integrera tekniken i sina egna lösningar.

Enkelt uttryckt fungerar Vivo så att AI:n får se bilder med nyckelord. Varje nyckelord är kopplat till ett visst objekt i bilden. Det fungerar ungefär som när ett litet barn ska lära sig läsa. En bild av ett äpple visas ovanför texten ”äpple” till exempel.

När Vivo lärt sig koppla rätt objekt till rätt text är det dags för nästa steg får AI:n lära sig att skriva kompletta meningar som innehåller nyckelorden.

Här skiljer sig Vivo från andra metoder som normalt använder sig av kompletta bildtexter för träningen. Nackdelen med det menar Microsofts forskare är att det bli svårt för AI:n att lära sig hur olika objekt hör ihop, vilket Vivo klarar av utan problem.

Bättre än människor på bildtexter

Den här metoden fungerar så bra att Vivos beskrivningar var bättre än de som skrevs av människor enligt en undersökning som forskarlaget gjorde.

Microsoft-forskarna hoppas nu att många andra företag också ska använda Vivo för att underlätta för blinda och synskadade att använda datorsystem. Men även vi andra kan ha nytta av lösningen menar forskarna.

– Att förfina tekniker för att beskriva bilder kan hjälpa alla användare. Det gör det enklare att hitta bilder via sökmotorer och för synskadade blir det en dramatisk förbättring när de ska använda webben och datorprogram, säger Eric Boyd på Azure AI.

En mer teknisk beskrivning av hur Vivo fungerar hittar du här och studien om hur väl tekniken fungerar finns här.