Automatiserad dataanalys

Som statistikkonsult stöter jag på mängder av olika frågeställningar från alla möjliga branscher. För att besvara dem krävs ibland mycket funderande och avancerade statistiska modeller. Men i en del andra fall handlar det om rutinartade analyser, där dataanalysen ser likadan ut dag efter dag. Ett bra exempel på det är analys av hur fort olika bakterier växer i mikrobiologiska experiment, där man ofta är intresserad av att se om olika egenskaper hos bakterierna påverkar deras tillväxthastighet.

För att hjälpa forskare och företag med sådana analyser har jag utvecklat Bioscreen Analysis Tool – förkortat BAT – ett gratis program som körs direkt i webbläsaren och som låter användaren snabbt och enkelt analysera resultatet av hundratals experiment.

BAT används idag av universitet och företag på fyra kontinenter. I de flesta fall kan programmet på egen hand utföra hela analysen, med en analysmotor byggd med verktygen R och Shiny, men i de fall där bakteriernas tillväxt avviker från det normala får användaren styra analysen genom ett grafiskt gränssnitt:

När man behöver utföra samma sorts tidskrävande analys gång på gång kan det vara en bra idé att automatisera det arbetet. Man behöver då en väl vald statistisk metod, verktyg för att kontrollera om något avviker från hur data brukar se ut samt ett gränssnitt som gör det lätt för användare som inte är experter på statistik att göra analyserna. En gång i tiden försökte man åstadkomma det här med komplicerade Excelark, men med R och Shiny kan vi idag skapa bättre, flexiblare och tydligare verktyg. Allt för att göra korrekta analyser på enklast möjliga vis.

  • Behöver ni hjälp med automatiserad dataanalys? Kontakta mig så ser vi hur jag kan hjälpa er.

Genomskinlig maskininlärning: att få AI att förklara sina beslut

De olika verktyg som används inom AI och maskininlärning brukar kallas för modeller och består av ett antal matematiska formler. Det är sällan vi ser formlerna bakom modellen – istället tar vi data, låter datorn stoppa in dem i vår modell och får ut någon sorts svar. Ett exempel kan vara att vi stoppar in data om en bankkund i vår modell, som i sin tur ger oss en rekommendation om huruvida kunden ska beviljas ett lån eller inte. De allra flesta av dessa modeller är vad som kallas för ”black box”-modeller. Det innebär att modellerna utgörs av extremt komplexa formler, vilket gör att de inte ger oss någon förståelig förklaring till varför de fattar ett visst beslut. Blev din låneansökan nekad? Modellen kan inte förklara varför.
Bildresultat för computer says no
I takt med att den sortens modeller blir allt vanligare i samhället kommer också strängare krav på att modellernas beslut ska kunna förklaras. I media lyfts avskräckande exempel fram, där ”black box”-modeller börjat diskriminera olika grupper, och tuffare krav från såväl konsumenter som politiker är att vänta. Det räcker inte längre med att modellen svarar ja eller nej – istället krävs genomskinlighet och öppenhet.
 
Det finns också goda anledningar för företagen själva att inte blint använda ”black box”-modeller. Genom att förstå hur modellen fattar sina beslut kan man förstå dess svagheter, stoppa potentiella problem och förbättra sin modell.
 
Även om många AI- och maskininlärningsmodeller, däribland de numera så populära neurala nätverken, är av ”black box”-typ så går det att öppna upp dem för att förklara varför de fattar olika beslut. Den processen kan delas upp i fyra delar:
 
1. Feature importance: vi kan på flera olika sätt mäta vilka vilka variabler som har störst inflytande i modellen.
2. Feature interaction: vi kan visualisera och undersöka hur olika variabler samverkar för att påverka modellens beslut.
3. Effekt av förändringar: vi kan visa hur olika förändringar av en individs variabler skulle förändra modellens beslut.
4. Identifiering av problem: genom att väga ihop resultaten från de tre punkterna ovan kan vi identifiera variabler som kan orsaka eller orsakar problem i modellen och utifrån detta föreslå förbättringar.
 
Det fina med de metoder som används för att öppna upp modellerna är att de inte kräver tillgång till modellens inre. Istället räcker det med att kunna mata in nya data i modellen och se vad svaren blir. Det gör det möjliga att anlita externa konsulter för arbetet med genomskinlighet och öppenhet – utan att behöva dela med sig av de modeller som kan utgöra en så viktig del av ett företags IP.
 

Tre föredrag vid Scifest i Uppsala

I mars kommer jag att hålla tre föredrag vid (populär)vetenskapsfestivalen Scifest i Uppsala. Dels två föredrag riktade mot högstadieelever och dels ett föredrag för allmänheten lördagen 9 mars. Mer information om plats och tider finns på Scifests hemsida.

Beskrivningen av föredraget för allmänheten lyder som följer: Vad är AI och hur fungerar det egentligen? Vad kan man göra med AI idag och vad kommer man kunna göra i framtiden? I det här föredraget om vår framtid med AI stöter vi på självkörande bilar, lättlurade datorer, AI som diskriminerar, sökandet efter lycka och den oväntade nyttan med att lägga upp bilder på sin mat på sociala medier.

Varmt välkomna!

Huvudföreläsare på Teknikmässan

I mars kommer jag att ge ett föredrag i Borlänge, som huvudföreläsare på Teknikmässan. Jag kommer att prata om AI inför elever från årskurs 2 på natur- och teknikprogrammen från gymnasieskolor i hela Dalarna. Dels kommer jag att prata om vad AI faktiskt är och hur det kommer att påverka oss och dels kommer jag att förklara hur den matematik de lär sig på gymnasiet – som räta linjens ekvation och derivator – i själva verket är de byggblock som används för att konstruera AI. En spännande utmaning!

I höstas var jag för övrigt också i Borlänge och föreläste, vilket går att läsa mer om här.

Prognosverktyg för mjölkbönder och mejerier

I våras hjälpte jag Dairy Data Warehouse att utveckla olika prognossystem för mjölkindustrin. I förra veckan lanserades några av de här systemen på den ledande mässan inom djurhållning: EuroTier i Hannover. De system jag varit med och utvecklat använder AI i form av  djupinlärning (deep learning), där data från en rad olika källor (mjölkningsrobotar, fodersystem, avelsdatabaser, m.m.) vägs ihop för att göra prognoser för exempelvis hur mycket mjölk en ko kommer att ge det närmaste året.

Systemen kommer att kunna användas på flera olika sätt. Bonden kommer att få bättre underlag för att bedöma vilka djur hon ska behålla och för hur ekonomin kommer se ut framöver. Mejerierna kommer att få bättre uppskattningar av hur mycket mjölk de ska hämta olika dagar och kan därmed bättre planera de rutter som tankbilarna åker, med både ekonomiska och miljömässiga vinster.

Dagens mjölkindustri är teknikintensiv och full av system som samlar in data av olika slag. Dairy Data Warehouse har byggt upp en unik databas där data från alla dessa system samlas på ett och samma ställe. Med hjälp av den databasen har vi också utvecklat system som ska ge bättre djurhälsa och som knyter an till internet of things i ladugården och på mejeriet. Mer om det kommer en annan gång.

  • Jag erbjuder rådgivning och utvecklingstjänster kring prognoser och AI. Kontakta mig för att få veta mer.