Konsult och föreläsare inom statistik och AI

Jag är en erfaren konsult och föreläsare inom statistik och artificiell intelligens, specialiserad på att lösa komplexa problem som kräver avancerad dataanalys, matematisk modellering eller smarta algoritmer. Ofta tar jag mig an och löser svåra problem där andra försökt men gått bet. Min erfarenhet sträcker sig över problem från en rad olika områden: från antibiotikaresistens till kärnbränsle, från mjölkningsrobotar till personalfrågor, från diskbråck till musikvideor.

Har ni stora komplexa datamaterial eller små enkla mätserier? Behöver ni hjälp med analys och visualisering av data? Automatisering, prognoser eller beslutsstöd? Biostatistik, machine learning eller data mining? En väl genomförd statistisk analys ger er bättre förståelse och leder till bättre beslut.

Jag är doktor i matematisk statistik, docent i statistik och har jobbat som konsult sedan 2010. Kontakta mig så pratar vi om hur jag kan hjälpa er att få ut mer av era data.

Läs mer om de tjänster jag erbjuder här och tidigare uppdrag här.

Huvudföreläsare på Teknikmässan

I mars kommer jag att ge ett föredrag i Borlänge, som huvudföreläsare på Teknikmässan. Jag kommer att prata om AI inför elever från årskurs 2 på natur- och teknikprogrammen från gymnasieskolor i hela Dalarna. Dels kommer jag att prata om vad AI faktiskt är och hur det kommer att påverka oss och dels kommer jag att förklara hur den matematik de lär sig på gymnasiet – som räta linjens ekvation och derivator – i själva verket är de byggblock som används för att konstruera AI. En spännande utmaning!

I höstas var jag för övrigt också i Borlänge och föreläste, vilket går att läsa mer om här.

Prognosverktyg för mjölkbönder och mejerier

I våras hjälpte jag Dairy Data Warehouse att utveckla olika prognossystem för mjölkindustrin. I förra veckan lanserades några av de här systemen på den ledande mässan inom djurhållning: EuroTier i Hannover. De system jag varit med och utvecklat använder AI i form av  djupinlärning (deep learning), där data från en rad olika källor (mjölkningsrobotar, fodersystem, avelsdatabaser, m.m.) vägs ihop för att göra prognoser för exempelvis hur mycket mjölk en ko kommer att ge det närmaste året.

Systemen kommer att kunna användas på flera olika sätt. Bonden kommer att få bättre underlag för att bedöma vilka djur hon ska behålla och för hur ekonomin kommer se ut framöver. Mejerierna kommer att få bättre uppskattningar av hur mycket mjölk de ska hämta olika dagar och kan därmed bättre planera de rutter som tankbilarna åker, med både ekonomiska och miljömässiga vinster.

Dagens mjölkindustri är teknikintensiv och full av system som samlar in data av olika slag. Dairy Data Warehouse har byggt upp en unik databas där data från alla dessa system samlas på ett och samma ställe. Med hjälp av den databasen har vi också utvecklat system som ska ge bättre djurhälsa och som knyter an till internet of things i ladugården och på mejeriet. Mer om det kommer en annan gång.

  • Jag erbjuder rådgivning och utvecklingstjänster kring prognoser och AI. Kontakta mig för att få veta mer.

Konsten att räkna med det omätbara

I det senaste numret av tidskriften Vatten finns en artikel om rening av enskilda avlopp, där jag hjälpt till med den statistiska analysen. Hushåll som har små egna avlopp måste också ha ett tillhörande reningsverk. I den här studien har man mätt halter av olika partiklar i vattnet som kommer ut från sådana reningsverk, hos mer än 200 hushåll.

För att mäta partikelhalterna har man tagit vattenprover, som sedan skickats till ett laboratorium. Problemet med sådana laboratoriemätningar är att de instrument som används bara kan mäta halter som är tillräckligt stora. Om halten ligger under laboratoriets detekteringsgräns så kan inget mätvärde ges. Istället kan man bara konstatera att halten är lägre än sagda gräns.

Första gången jag stötte på detekteringsgränser var i ett helt annat sammanhang – i ett projekt med Akademiska sjukhuset i Uppsala. Problemet med detekteringsgränser har nämligen också blivit vanligt inom modern medicinsk forskning, där man ofta är intresserade av halter av olika så kallade biomarkörer (exempelvis protein) i blod eller andra kroppsvätskor. Biomarkörer kan användas för att diagnosticera sjukdomar, välja behandling eller bättre förstå sjukdomsförlopp, men i många fall är halterna för låga för att laboratoriet ska kunna ge något riktigt mätvärde.

Så vad kan vi göra? Vi behöver inte slänga bort mätningarna bara för att vi inte kan få något säkert mätvärde. Vi vet ju faktiskt något om halten av ämnet – nämligen att den ligger under en viss gräns. Det är information som går att använda i vår statistiska analys, men däremot kan vi behöva andra verktyg än de allra vanligaste. Klassiska statistiska verktyg som t-test eller linjär regression stöter ofta på problem när de används på data med detekteringsgränser. Istället kan ickeparametriska metoder eller metoder från överlevnadsanalys användas, men vilken metod som är bäst beror på en rad olika faktorer. Om det har jag tidigare skrivit i den vetenskapliga tidskriften Statistics in Medicine.

En av de roligaste sakerna med att arbeta som statistiker är att man får lära sig om så många olika områden: från avloppsrening till sjukdomsdiagnostik. Och de statistiska problemen är ofta desamma oavsett vilket område data kommer från. Avlopp och blod kan verka som vitt skilda saker, men med statistikerglasögonen på är det knappt någon skillnad.

Föredrag och intervjuer

I slutet av september höll jag två föredrag i Borlänge om artificiell intelligens: hur det fungerar, vad man kan göra med AI idag och hur det kommer att påverka oss i framtiden. I samband med det blev jag intervjuad av Dalarnas Tidningar, Annonsbladet och Sveriges Radio (länken går till en nedklippt version av den direktsända intervjun).

Föredraget vid Dalarna Science Park livesändes på nätet och finns att se här (föredraget börjar 9:30 in i videon, och är uppdelat i två videoklipp).

(Ljudet är bitvis lite märkligt, gissningsvis eftersom jag hade två olika mikrofoner på mig. Men fullt lyssningsbart!)

Diskriminering och dåliga data: fallet Amazon

I dagarna har det rapporterats om att Amazon lagt ner ett projekt där AI skulle användas för att sålla bland kandidater vid rekryteringar (IDG, Reuters). Anledningen är att AI-verktyget började diskriminera kvinnor och föredra manliga sökande.

Men hur kan en dator lära sig att diskriminera? Svaret finns i våra data.

Statistiker världen över har ägnat årtionden åt att fundera över hur man på bästa sätt ska samla in data för att kunna ge svar på de frågor man undrar över. Det finns många fallgropar när det gäller datainsamling. Två av dem är:

  • Obalanserat urval: om vi vill utföra en opinionsundersökning för att kunna göra en prognos för hur det svenska folket kommer att rösta i ett riksdagsval så duger det inte att exempelvis bara fråga personer i Danderyd, eftersom den gruppen helt enkelt inte är representativ för riket i stort. Om personerna i vårt datamaterial till största delen är från en liten del av samhället så kan våra data inte användas för att säga något om resten av samhället.
  • Felmärkta data: i studier där man ska lära en statistisk modell att till exempel diagnosticera en sjukdom så behöver alla patienter i datamaterialet att ”märkas” – antingen som att de har sjukdomen eller som att de inte har sjukdomen. Den märkningen utgör facit när modellen tränas att känna igen sjukdomen. Tyvärr är det vanligt att man helt enkelt inte har perfekta data. Diagnoser kan vara svåra att ställa och en del patienter får fel diagnos. Det kan finnas komplicerade gränsfall, ovanliga fall med andra symptom än de vanligaste och patienter som har symptomen men inte sjukdomen. Det gör att det ofta kan bli fel när patienterna som ingår i datamaterialet ska märkas – och de fel som sker vid märkningen lär sig den statistiska modellen att upprepa. Märkningen är modellens facit och den kan inte på egen hand upptäcka när det blivit fel.

Om man inte undviker fallgroparna så riskerar man att lura både sig själv och andra. Det gäller oavsett om man utför opinionsundersökningar eller utvecklar AI-verktyg för rekrytering.

I fallet med Amazons rekryterings-AI så finns det tecken på att de fallit i båda de ovan nämnda fallgroparna:

  • Obalanserat urval: Amazons datamaterial bestod av ansökningar som tidigare kommit in till företaget. En majoritet av dessa var från män. Det gör att det blir lättare för AI-systemet att känna igen anställningsbara män (eftersom det sett fler exempel på sådana). En fara med det här datamaterialet är också att systemet kan avfärda kandidater som inte liknar de som tidigare sökt sig till företaget – vilket gör att man riskerar att missa nya kompetenser.
  • Felmärkta data: om (så som ofta visats vara fallet) kvinnors kompetens nedvärderas i teknikbranschen medan mäns kompetens uppvärderas, så kommer det att finnas en felmärkning i datamaterialet. Kvinnor kommer felaktigt att av människor i genomsnitt bedömas som mindre kompetenta (och därmed inte märkas som anställningsbara) och män felaktigt att av människor i genomsnitt bedömas som mer kompetenta (och därmed märkas som anställningsbara). AI:n lära sig då att själv upprepa de felvärderingarna.

Att låta sökande bedömas av ett AI-verktyg är i teorin en jättebra idé. Datorn kan vara opartisk, rättvis och ge alla samma chans. Men om de data som används för att bygga upp verktyget inte är opartiska, rättvisa och ger alla samma chans blir effekten den motsatta. AI:n löser i så fall inte problemet med diskriminering – tvärtom cementerar den diskrimineringen.

Diskriminerande AI-system är på intet sätt något som är unikt för rekryteringsverktyg – ett annat exempel från i år är ansiktsigenkänningssystem som fungerar mycket bättre för vita män än för personer med annat kön eller annan hudfärg. Värt att understryka är att Amazon på eget bevåg lade ned projektet med AI-verktyg för rekrytering. Men hur många företag har gått och kommer gå vidare med AI-projekt utan att förstå vikten av att inte bygga in diskriminering i dem? Vad kommer de och vi att gå miste om när systemen fattar beslut på felaktiga grunder? Och hur kommer reaktionerna att bli när problemen med deras system avslöjas?

  • Jag erbjuder rådgivning kring datainsamling och hjälp med att bygga statistiska modeller och AI-system som undviker fallgroparna. Kontakta mig för att få veta mer.
  • Jag ger också föredrag om hur vi ska göra för att undvika att lura oss själva och andra med siffror och statistik, samt om hur AI påverkar oss idag och i framtiden.