2019 i backspegeln

2019 har varit ett spännande år, där jag fått möjlighet att hjälpa företag, myndigheter och forskare med ett gäng spännande problem. Jag har bland annat utvecklat prognosverktyg för företags omsättning, jobbat med att förbättrad infektionsdiagnostik vid indiska barnsjukhus, fortsatt arbetet med att bygga statistiska modeller för att förbättra mjölkningsrobotar och undersökt vilket som är det bästa sättet att söva älgar (…!). Mitt arbete med att hjälpa forskare har resulterat i en rad vetenskapliga artiklar, bland annat i Nature Communications.

Under året har jag haft förmånen att föreläsa om AI och hur utvecklingen där kommer att påverka oss, både för allmänheten och för mindre sällskap. Det här är något som ligger mig varmt om hjärtat, så räkna med att höra mer från mig på det temat nästa år.

Utöver konsultuppdrag och föredrag så har jag hunnit med att undervisa på ett antal kurser under 2019. I november besökte jag Lantmäteriet och gav min introduktionskurs i maskininlärning och AI, som de tio deltagarna gav 5,75 i snittbetyg på en 6-gradig skala. Under hösten har jag också lett och föreläst på en fördjupande kurs på samma tema på Uppsala universitet. Min onlinekurs i statistik vid University of Edinburgh gick för tredje gången nu under hösten. Kursen har fått högsta beröm av studenterna och jag jobbar nu för fullt med att utveckla två nya kurser åt universitetet. Någonstans mitt i allt det här hann jag med att föreläsa på en statistikkurs för ingenjörer också, även det vid Uppsala universitet.

Det har varit ett späckat år helt enkelt – men jag har redan börjat se fram emot nya spännande utmaningar under 2020. Har du frågor kring dataanalys? Kontakta mig så pratar vi om hur jag kan hjälpa er att få ut mer av era data.

Ny kurs om maskininlärning

Jag samarbetar sedan i vintras med Statistikakademin, som erbjuder kurser i statistik. Vi har nu utvecklat en ny endagskurs om maskininlärning och AI, där jag har konstruerat kursmaterialet och kommer vara lärare.

Kursen passar bra för dig som vill lära dig att använda maskininlärning för prognoser, klassificering och automatisering, eller bara vill få en bättre förståelse för vad maskininlärning och AI egentligen innebär – nog så viktig för beslutsfattare som bombarderas med budskap om hur data blir allt viktigare för verksamheten.

Du kan redan nu boka plats på någon av de schemalagda kurserna i vår:
6 februari i Uppsala
26 mars i Göteborg
7 maj i Stockholm

Anmälan sker via Statistikakademins webbplats.

Om ni är flera som är intresserade så kan jag också komma och ge kursen på plats hos er. Kontakta mig för att få veta mer.

AI på Industrinatten

Industrinatten är en mötesplats mellan svensk industri och skolungdomar, som ordnas årligen på en rad platser i Sverige. Den här veckan höll jag öppningsföredraget på Industrinatten i Hofors, där jag pratade om vad AI egentligen är och hur det kommer att påverka oss framöver. Jag börjar ofta den här sortens föredrag med att prata om de senaste tjugo årens teknikutveckling, som till stort del drivits av (mobilt) internet och tunna (pek)skärmar. På samma sätt kommer de kommande tjugo årens utveckling drivas av så kallad snäv AI: datorsystem som automatiserar olika uppgifter åt oss.

Att systemen kan automatisera olika uppgifter innebär däremot inte att de är särskilt intelligenta, vilket skolungdomarna i Hofors också fick se ett antal exempel på. Några av dem kom från Google Översätt, som trots att Google årligen lägger miljarder på att stoppa in AI i sina system ibland misslyckas fullständigt med sina översättningar.

Modern AI har en enorm potential, men om man inte är försiktig när man bygger de här systemen så händer det lätt att de ger fel svar – som i exemplet ovan – eller får andra oönskade beteenden, som exempelvis diskriminering. Det är en av anledningarna till att det är så viktigt att undersöka hur AI-systemen egentligen fungerar innan man börjar använda dem.

  • Vill ni höra mer om vad AI är? Hur det fungerar? Vad det kan och inte kan göra idag? Hur det kommer att forma vår framtid? Kontakta mig för att boka ett föredrag.

Automatiserad dataanalys

Som statistikkonsult stöter jag på mängder av olika frågeställningar från alla möjliga branscher. För att besvara dem krävs ibland mycket funderande och avancerade statistiska modeller. Men i en del andra fall handlar det om rutinartade analyser, där dataanalysen ser likadan ut dag efter dag. Ett bra exempel på det är analys av hur fort olika bakterier växer i mikrobiologiska experiment, där man ofta är intresserad av att se om olika egenskaper hos bakterierna påverkar deras tillväxthastighet.

För att hjälpa forskare och företag med sådana analyser har jag utvecklat Bioscreen Analysis Tool – förkortat BAT – ett gratis program som körs direkt i webbläsaren och som låter användaren snabbt och enkelt analysera resultatet av hundratals experiment.

BAT används idag av universitet och företag på fyra kontinenter. I de flesta fall kan programmet på egen hand utföra hela analysen, med en analysmotor byggd med verktygen R och Shiny, men i de fall där bakteriernas tillväxt avviker från det normala får användaren styra analysen genom ett grafiskt gränssnitt:

När man behöver utföra samma sorts tidskrävande analys gång på gång kan det vara en bra idé att automatisera det arbetet. Man behöver då en väl vald statistisk metod, verktyg för att kontrollera om något avviker från hur data brukar se ut samt ett gränssnitt som gör det lätt för användare som inte är experter på statistik att göra analyserna. En gång i tiden försökte man åstadkomma det här med komplicerade Excelark, men med R och Shiny kan vi idag skapa bättre, flexiblare och tydligare verktyg. Allt för att göra korrekta analyser på enklast möjliga vis.

  • Behöver ni hjälp med automatiserad dataanalys? Kontakta mig så ser vi hur jag kan hjälpa er.

Genomskinlig maskininlärning: att få AI att förklara sina beslut

De olika verktyg som används inom AI och maskininlärning brukar kallas för modeller och består av ett antal matematiska formler. Det är sällan vi ser formlerna bakom modellen – istället tar vi data, låter datorn stoppa in dem i vår modell och får ut någon sorts svar. Ett exempel kan vara att vi stoppar in data om en bankkund i vår modell, som i sin tur ger oss en rekommendation om huruvida kunden ska beviljas ett lån eller inte. De allra flesta av dessa modeller är vad som kallas för ”black box”-modeller. Det innebär att modellerna utgörs av extremt komplexa formler, vilket gör att de inte ger oss någon förståelig förklaring till varför de fattar ett visst beslut. Blev din låneansökan nekad? Modellen kan inte förklara varför.
Bildresultat för computer says no
I takt med att den sortens modeller blir allt vanligare i samhället kommer också strängare krav på att modellernas beslut ska kunna förklaras. I media lyfts avskräckande exempel fram, där ”black box”-modeller börjat diskriminera olika grupper, och tuffare krav från såväl konsumenter som politiker är att vänta. Det räcker inte längre med att modellen svarar ja eller nej – istället krävs genomskinlighet och öppenhet.
 
Det finns också goda anledningar för företagen själva att inte blint använda ”black box”-modeller. Genom att förstå hur modellen fattar sina beslut kan man förstå dess svagheter, stoppa potentiella problem och förbättra sin modell.
 
Även om många AI- och maskininlärningsmodeller, däribland de numera så populära neurala nätverken, är av ”black box”-typ så går det att öppna upp dem för att förklara varför de fattar olika beslut. Den processen kan delas upp i fyra delar:
 
1. Feature importance: vi kan på flera olika sätt mäta vilka vilka variabler som har störst inflytande i modellen.
2. Feature interaction: vi kan visualisera och undersöka hur olika variabler samverkar för att påverka modellens beslut.
3. Effekt av förändringar: vi kan visa hur olika förändringar av en individs variabler skulle förändra modellens beslut.
4. Identifiering av problem: genom att väga ihop resultaten från de tre punkterna ovan kan vi identifiera variabler som kan orsaka eller orsakar problem i modellen och utifrån detta föreslå förbättringar.
 
Det fina med de metoder som används för att öppna upp modellerna är att de inte kräver tillgång till modellens inre. Istället räcker det med att kunna mata in nya data i modellen och se vad svaren blir. Det gör det möjliga att anlita externa konsulter för arbetet med genomskinlighet och öppenhet – utan att behöva dela med sig av de modeller som kan utgöra en så viktig del av ett företags IP.