Datapandemin

Coronapandemin har format de senaste två åren på alla möjliga sätt. En sak som jag som statistiker inte kunnat undgå att lägga märke till är hur statistik, i form av statistik kring pandemin, plötsligt blivit förstasidesnyheter. Media och folk i allmänhet diskuterar siffror på ett sätt vi nog aldrig har sett förut:

  • Är den senaste veckans ökade smittspridning tecken på en ny våg? Kommer spridningen istället att plana ut eller till och med gå ned igen?
  • Hur ser utvecklingen ut de senaste månaderna? Vad är tillfälligt brus i data och vad är en trend?
  • Kan man jämföra siffrorna för antalet smittade i olika länder, om rutinerna för testning ser olika ut? Testar man mindre så hittar man ju färre fall.
  • Hur ska man jämföra siffrorna för andelen vaccinerade i olika länder? Ska man titta på andelen vaccinerade i olika åldersgrupper? I hela befolkningen?

Det här är den sortens frågor som vi statistiker jobbar med och tänker på varje dag. Att de uppmärksammas i den allmänna debatten är jättebra. Tillgång till bra och rättvisande data är i många fall A och O för att kunna fatta rätt beslut – men det räcker inte med att bara ha bra data, vi måste dessutom ställa rätt frågor och titta på data på rätt sätt. Där är statistikens verktygslåda och sätt att tänka ovärderlig.

Mindre lyckad statistik.

För att göra all data kring pandemin begriplig försöker vi visualisera den i olika grafer. Vi möts varje dag av olika kurvor och figurer som visar antal, andelar och utveckling över tid – och inte bara i nyheterna.

SVT:s covidsidor är ett exempel på dagligen uppdaterade visualiseringar av pandemins förlopp. Den utjämnade kurvan visar trenden över tid.
Datavisualisering med en så kallad heatmap vid min lokala Ica-butik: färgerna visar hur många besökare det är i butiken vid olika tider.

Intresset för datavisualisering har nyligen lett Washington Post till att starta ett nyhetsbrev om grafer som syns i nyhetsflödet. Brittiska Royal Statistical Society har i sin tur publicerat en rad intervjuer där de försöker lyfta fram statistiken och statistikers viktiga roll under pandemin.

Det finns nog mycket vi kommer att ta med oss från pandemiåren. Nya vanor, erfarenheter av distansarbete, insikter om hur samhället ska byggas för att kunna hantera oväntade händelser. Jag hoppas att en av de saker vi tar med oss är användandet av statistik och datavisualisering och vanan att ställa frågor kring vad det egentligen är olika siffror visar.

Coronaviruset visar utvecklingen inom AI

Uppdatering april 2020: Texten nedan skrevs i början av februari, innan det nya coronaviruset på allvar börjat spridas utanför Kina. Den handlar om hur AI kan användas för att upptäcka och bekämpa epidemier i ett tidigt skede snarare än när man fått stor samhällsspridning, och handlar därför inte om det allvarligare läge som många länder nu befinner sig i.

De senaste veckorna har nyhetsrapporteringen dominerats av spridningen av coronaviruset 2019-nCov. Ett ord som dyker upp gång på gång i de spaltmeter som skrivits om viruset är AI, och rapporteringen låter oss se vilka kliv utvecklingen inom AI tagit det senaste årtiondet. Det vi ser är imponerande.

Smittspridningen blev allmänt känd först i januari, även om den nu tros ha pågått sedan december. Redan då varnade det kanadensiska bolaget BlueDot sina kunder för att deras AI-system, som samlar in data från mängder av digitala källor, upptäckt spridningen av ett nytt virus i kinesiska Wuhan.

Men AI används inte bara för att kunna förutse hur epidemier sprider sig. Tvärtom så används AI för att bekämpa spridningen på flera olika sätt:

  • AI-drivna botar har ringt upp Shanghaibor hörandes till riskgrupper och frågat dem om symptom. I en del fall har de rekommenderats karantän i hemmet, och botarna har då informerat myndigheterna om de misstänkta fallen. En bot kan genomföra 200 sådana samtal på 5 minuter, medan en människa hade behövt 2-3 timmar för att göra motsvarande jobb. Med AI kan myndigheterna snabbt nå ett stort antal människor under kriser.
  • Autonoma robotar används för att desinficera slutna delar av sjukhus och servera mat till personer som satts i karantän. AI kan ta över farliga uppdrag från människor för att minska smittorisken.
  • AI-system med infraröda sensorer mäter kroppstemperaturen på passagerare i kollektivtrafiken, för att upptäcka misstänka fall av smittan. Snabbare och effektivare än om varje kontroll genomförts av en spärrvakt.
  • Stora kinesiska teknikbolag som Baidu och Alibaba har delat med sig av AI-algoritmer och datorkraft för att förstå virusets genetik, vilket snabbat upp processen flera gånger om.
  • AI har använts för att ta fram kandidatmolekyler för läkemedel mot coronaviruset. Det gör att läkemedel förhoppningsvis kan tas fram på mycket kortare tid.

En titt på rapporteringen kring coronaviruset gör det tydligt att AI är inte längre science fiction, utan något som används överallt hela tiden. Vi stöter på AI varje dag i nätbutikers och strömningstjänsters rekommendationer, kartappar, skräppostfilter, kamerafilter och röstassistenter som Google Home och Siri. Samtidigt är den här en teknologi som fortfarande är ung, och som dras med problem som inbyggd diskriminering och bristande genomskinlighet. Att ha en grundläggande förståelse för AI blir allt viktigare för allt fler, dels för att förstå teknikens möjligheter och dels för att förstå dess begränsningar.

2019 i backspegeln

2019 har varit ett spännande år, där jag fått möjlighet att hjälpa företag, myndigheter och forskare med ett gäng spännande problem. Jag har bland annat utvecklat prognosverktyg för företags omsättning, jobbat med att förbättrad infektionsdiagnostik vid indiska barnsjukhus, fortsatt arbetet med att bygga statistiska modeller för att förbättra mjölkningsrobotar och undersökt vilket som är det bästa sättet att söva älgar (…!). Mitt arbete med att hjälpa forskare har resulterat i en rad vetenskapliga artiklar, bland annat i Nature Communications.

Under året har jag haft förmånen att föreläsa om AI och hur utvecklingen där kommer att påverka oss, både för allmänheten och för mindre sällskap. Det här är något som ligger mig varmt om hjärtat, så räkna med att höra mer från mig på det temat nästa år.

Utöver konsultuppdrag och föredrag så har jag hunnit med att undervisa på ett antal kurser under 2019. I november besökte jag Lantmäteriet och gav min introduktionskurs i maskininlärning och AI, som de tio deltagarna gav 5,75 i snittbetyg på en 6-gradig skala. Under hösten har jag också lett och föreläst på en fördjupande kurs på samma tema på Uppsala universitet. Min onlinekurs i statistik vid University of Edinburgh gick för tredje gången nu under hösten. Kursen har fått högsta beröm av studenterna och jag jobbar nu för fullt med att utveckla två nya kurser åt universitetet. Någonstans mitt i allt det här hann jag med att föreläsa på en statistikkurs för ingenjörer också, även det vid Uppsala universitet.

Det har varit ett späckat år helt enkelt – men jag har redan börjat se fram emot nya spännande utmaningar under 2020. Har du frågor kring dataanalys? Kontakta mig så pratar vi om hur jag kan hjälpa er att få ut mer av era data.

Genomskinlig maskininlärning: att få AI att förklara sina beslut

De olika verktyg som används inom AI och maskininlärning brukar kallas för modeller och består av ett antal matematiska formler. Det är sällan vi ser formlerna bakom modellen – istället tar vi data, låter datorn stoppa in dem i vår modell och får ut någon sorts svar. Ett exempel kan vara att vi stoppar in data om en bankkund i vår modell, som i sin tur ger oss en rekommendation om huruvida kunden ska beviljas ett lån eller inte. De allra flesta av dessa modeller är vad som kallas för ”black box”-modeller. Det innebär att modellerna utgörs av extremt komplexa formler, vilket gör att de inte ger oss någon förståelig förklaring till varför de fattar ett visst beslut. Blev din låneansökan nekad? Modellen kan inte förklara varför.
Bildresultat för computer says no
I takt med att den sortens modeller blir allt vanligare i samhället kommer också strängare krav på att modellernas beslut ska kunna förklaras. I media lyfts avskräckande exempel fram, där ”black box”-modeller börjat diskriminera olika grupper, och tuffare krav från såväl konsumenter som politiker är att vänta. Det räcker inte längre med att modellen svarar ja eller nej – istället krävs genomskinlighet och öppenhet.
 
Det finns också goda anledningar för företagen själva att inte blint använda ”black box”-modeller. Genom att förstå hur modellen fattar sina beslut kan man förstå dess svagheter, stoppa potentiella problem och förbättra sin modell.
 
Även om många AI- och maskininlärningsmodeller, däribland de numera så populära neurala nätverken, är av ”black box”-typ så går det att öppna upp dem för att förklara varför de fattar olika beslut. Den processen kan delas upp i fyra delar:
 
1. Feature importance: vi kan på flera olika sätt mäta vilka vilka variabler som har störst inflytande i modellen.
2. Feature interaction: vi kan visualisera och undersöka hur olika variabler samverkar för att påverka modellens beslut.
3. Effekt av förändringar: vi kan visa hur olika förändringar av en individs variabler skulle förändra modellens beslut.
4. Identifiering av problem: genom att väga ihop resultaten från de tre punkterna ovan kan vi identifiera variabler som kan orsaka eller orsakar problem i modellen och utifrån detta föreslå förbättringar.
 
Det fina med de metoder som används för att öppna upp modellerna är att de inte kräver tillgång till modellens inre. Istället räcker det med att kunna mata in nya data i modellen och se vad svaren blir. Det gör det möjliga att anlita externa konsulter för arbetet med genomskinlighet och öppenhet – utan att behöva dela med sig av de modeller som kan utgöra en så viktig del av ett företags IP.
 

Diskriminering och dåliga data: fallet Amazon

I dagarna har det rapporterats om att Amazon lagt ner ett projekt där AI skulle användas för att sålla bland kandidater vid rekryteringar (IDG, Reuters). Anledningen är att AI-verktyget började diskriminera kvinnor och föredra manliga sökande.

Men hur kan en dator lära sig att diskriminera? Svaret finns i våra data.

Statistiker världen över har ägnat årtionden åt att fundera över hur man på bästa sätt ska samla in data för att kunna ge svar på de frågor man undrar över. Det finns många fallgropar när det gäller datainsamling. Två av dem är:

  • Obalanserat urval: om vi vill utföra en opinionsundersökning för att kunna göra en prognos för hur det svenska folket kommer att rösta i ett riksdagsval så duger det inte att exempelvis bara fråga personer i Danderyd, eftersom den gruppen helt enkelt inte är representativ för riket i stort. Om personerna i vårt datamaterial till största delen är från en liten del av samhället så kan våra data inte användas för att säga något om resten av samhället.
  • Felmärkta data: i studier där man ska lära en statistisk modell att till exempel diagnosticera en sjukdom så behöver alla patienter i datamaterialet att ”märkas” – antingen som att de har sjukdomen eller som att de inte har sjukdomen. Den märkningen utgör facit när modellen tränas att känna igen sjukdomen. Tyvärr är det vanligt att man helt enkelt inte har perfekta data. Diagnoser kan vara svåra att ställa och en del patienter får fel diagnos. Det kan finnas komplicerade gränsfall, ovanliga fall med andra symptom än de vanligaste och patienter som har symptomen men inte sjukdomen. Det gör att det ofta kan bli fel när patienterna som ingår i datamaterialet ska märkas – och de fel som sker vid märkningen lär sig den statistiska modellen att upprepa. Märkningen är modellens facit och den kan inte på egen hand upptäcka när det blivit fel.

Om man inte undviker fallgroparna så riskerar man att lura både sig själv och andra. Det gäller oavsett om man utför opinionsundersökningar eller utvecklar AI-verktyg för rekrytering.

I fallet med Amazons rekryterings-AI så finns det tecken på att de fallit i båda de ovan nämnda fallgroparna:

  • Obalanserat urval: Amazons datamaterial bestod av ansökningar som tidigare kommit in till företaget. En majoritet av dessa var från män. Det gör att det blir lättare för AI-systemet att känna igen anställningsbara män (eftersom det sett fler exempel på sådana). En fara med det här datamaterialet är också att systemet kan avfärda kandidater som inte liknar de som tidigare sökt sig till företaget – vilket gör att man riskerar att missa nya kompetenser.
  • Felmärkta data: om (så som ofta visats vara fallet) kvinnors kompetens nedvärderas i teknikbranschen medan mäns kompetens uppvärderas, så kommer det att finnas en felmärkning i datamaterialet. Kvinnor kommer felaktigt att av människor i genomsnitt bedömas som mindre kompetenta (och därmed inte märkas som anställningsbara) och män felaktigt att av människor i genomsnitt bedömas som mer kompetenta (och därmed märkas som anställningsbara). AI:n lära sig då att själv upprepa de felvärderingarna.

Att låta sökande bedömas av ett AI-verktyg är i teorin en jättebra idé. Datorn kan vara opartisk, rättvis och ge alla samma chans. Men om de data som används för att bygga upp verktyget inte är opartiska, rättvisa och ger alla samma chans blir effekten den motsatta. AI:n löser i så fall inte problemet med diskriminering – tvärtom cementerar den diskrimineringen.

Diskriminerande AI-system är på intet sätt något som är unikt för rekryteringsverktyg – ett annat exempel från i år är ansiktsigenkänningssystem som fungerar mycket bättre för vita män än för personer med annat kön eller annan hudfärg. Värt att understryka är att Amazon på eget bevåg lade ned projektet med AI-verktyg för rekrytering. Men hur många företag har gått och kommer gå vidare med AI-projekt utan att förstå vikten av att inte bygga in diskriminering i dem? Vad kommer de och vi att gå miste om när systemen fattar beslut på felaktiga grunder? Och hur kommer reaktionerna att bli när problemen med deras system avslöjas?

  • Jag erbjuder rådgivning kring datainsamling och hjälp med att bygga statistiska modeller och AI-system som undviker fallgroparna. Kontakta mig för att få veta mer.
  • Jag ger också föredrag om hur vi ska göra för att undvika att lura oss själva och andra med siffror och statistik, samt om hur AI påverkar oss idag och i framtiden.