e-hälsa ger bättre vård – med eller utan AI

e-hälsa och digitalisering av vården är 2010-talets melodi och nu börjar vi på allvar se fördelarna med det inom medicinsk diagnostik. Ta patienter som hamnar på sjukhus som ett exempel. Genom åren har flera statistiska modeller för att förutspå mortalitet, oplanerade återbesök och långvarig inläggning på sjukhus tagits fram. Genom att använda information om exempelvis blodtryck, puls, andning och vita blodkroppar kan modellerna med hyfsad noggrannhet avgöra risken att en patient avlider, tvingas komma tillbaka till sjukhuset eller blir kvar i mer än en vecka.

I en intressant artikel från maj i år visar forskare från bland annat Google och Stanford att ett AI-system som kan läsa digitala journaler gör ett betydligt bättre jobb när det gäller att förutspå sådana risker. Artikeln har uppmärksammats stort i media, bland annat av Daily Mail och Bloomberg. Studien ser ut som en triumf för e-hälsa och forskarna ägnar mycket utrymme åt att beskriva fördelarna med djupinlärning, som är den form av AI de använt.

Det är lätt att hålla med om att det här är ett stort kliv framåt för e-hälsa – det visar att datorsystem som tolkar hela journaler istället för några få mätvärden har stor potential. Däremot är det knappast något stort kliv framåt för AI. Den som läser artikeln lite närmare hittar nämligen en jämförelse mellan forskarnas djupinlärningssystem och ett betydligt enklare system som matats med samma journaldata. Det senare använder logistisk regression – en stapelvara inom traditionell statistisk analys, som lärs ut på grundkurser och har funnits sedan 1950-talet. Jämförelsen, som ligger gömd längst ner i artikelns appendix, visar att skillnaden mellan djupinlärning och logistisk regression är minimal (och ser ut att vara inom felmarginalen).

Att lära upp djupinlärningssystem är tidskrävande och kräver mängder av beräkningskraft. Logistisk regression är betydligt enklare att använda, kräver mindre datorkraft och har dessutom fördelen att modellen går att tolka: djupinlärningssystem är så kallade svarta lådor där vi inte vet varför de gör en viss bedömning, medan vi med logistisk regression kan förstå precis varför systemet gör bedömningen. Om båda systemen fungerar lika bra så ska man välja logistisk regression alla dagar i veckan. En produkt som inget vet hur den fungerar är förstås inte lika bra som en produkt som vi kan förstå.

I den här och liknande artiklar kan man just nu skönja två tendenser:

  • e-hälsa kommer fortsätta leda till förbättrad vård och smart användning av digitala journaler kommer leda till bättre diagnoser.
  • Alla vill hoppa på AI-tåget och det är lätt att bli förblindad av alla glänsande nya AI-verktyg. Det verkliga bidraget i den här artikeln är sättet att få ut information från digitala journaler – inte användet av djupinlärning. Trots det talar både forskarna och media mest om AI-aspekten.

Den dataanalys som använder de häftigaste senaste teknikerna är inte alltid den som är bäst. Det är något som är väl värt att ha i åtanke när ni anlitar konsulter för dataanalys. Ibland är AI och djupinlärning precis rätt verktyg för era problem, men ibland är andra alternativ mycket bättre. Precis som man ska vara försiktig med att anlita en snickare som tror sig kunna lösa alla byggprojekt med bara en hammare så ska man tänka sig för innan man anlitar en konsult som vill lösa alla problem med AI.

AI mot AI och it-säkerhet

AI och ML är två populära förkortningar inom modern it-säkerhet, som står för artificiell intelligens respektive maskininlärning. Det pratas (med all rätt) mycket om hur dessa tekniker kan användas för att förbättra it-säkerhet, exempelvis genom automatisk upptäcka och stoppa cyberattacker. Det kanske mest kända exemplet på det är spam- och phishingfilter, som idag med god noggrannhet kan blockera skräppost och bedrägeriförsök.

Men AI kan också användas av de som utför attackerna.

På senare år har URL:er (webbadresser) som används i phishingattacker allt mer börjat genereras automatiskt. Säkerhetsföretagen har i sin tur utvecklat filter som med hjälp av AI och ML ska känna igen sådana URL:er – även när de inte använts i tidigare phishingförsök. Problemet är att sådana system går att lura.

Ett högaktuellt forskningsområde inom artificiell intelligens är så kallade adversarial examples eller, fritt översatt, fientliga exempel. Det handlar om att göra små modifiering av något som ska bedömas av ett AI-system (exempelvis en URL eller en bild) för att lura systemet. Det har gjorts enorma framsteg inom AI-drivna bildigenkänningsystem de senaste åren, och moderna system kan utan större problem känna igen olika föremål (fjärilar, bilar, osv), olika personers ansikten, oroväckande hudförändringar, med mera. Fientliga exempel har hittills oftast konstruerats för att lura just sådana bildigenkänningssystem. De skapas med hjälp av AI: man konstruerar ett nytt AI-system som får lära sig att lura bildigenkänningssystemet. Och det visar sig att genom att ändra några få pixlar i bilden, på ett sätt som knappt märks för människor, så kan man få AI-systemen att helt missbedöma vad de ”ser” i bilden. Med små små ändringar kan vi få datorn att tro att en bild på en fjäril i själva verket föreställer en lastbil.

Ovan: en fjäril. Nedan: en lastbil…?!

Det här kan förstås få oroväckande konsekvenser. Vad händer exempelvis om man lyckas lura kamerorna i en självkörande bil? Kan man lura ansiktsigenkänningsystem som används för identifiering istället för passerkort? Och kan de som ligger bakom phishingattacker använda samma teknik för att skapa URL:er som tar sig förbi säkerhetsföretagens filter?

Svaret på den sista frågan är definitivt ja. I en studie från juni i år visade några forskare vid säkerhetsföretaget Cyxtera att de med hjälp av AI kunde öka andelen phishing-URL:er som passerar nätfiskefilter från 0.69 % till 21 % i ett fall, och från 5 % till 36 % i ett annat fall. Det är dramatiska skillnader, som alltså nås genom att ett AI-system lärs upp i konsten att lura phishingfilter.

Från bildigenkänningsvärlden vet vi att system som tränas i att lura ett visst igenkänningssystem för det allra mesta också lyckas lura andra liknande igenkänningssystem. Rimligen innebär det att detsamma gäller för URL:er, vilket skulle kunna möjliggöra en ny framgångsrik våg av nätfiske – men bara om vi inte är vaksamma. Det går nämligen att förbättra dagens AI-drivna phishingfilter genom att lära dem att känna igen fientliga exempel. Det gör man genom att (som i Cyxteras studie) själv konstruera fientliga exempel riktade mot sitt system, som man sedan visar för systemet för att lära det att identifiera sådana bluffar. Projektet CleverHans försöker underlätta den strategin genom att erbjuda öppen källkod som kan användas för att förbättra systems skydd mot fientliga exempel.

Framtidens it-säkerhet ser ut att bli en kamp mellan AI och AI. Det gäller därför att hela tiden tänka på hur AI- och ML-system kan luras och utnyttjas. Den som inte ligger steget före kommer få ångra det.

AI upptäcker hudcancer

Jag har de senaste dagarna skrivit om svårigheter med att utveckla AI för medicinsk användning samt om problem som kan uppstå när medicinska AI-tekniker används för andra syften. Dags så för ett mer positivt exempel – Vetenskapsradion rapporterade igår om en ny artikel i tidskriften Annals of Oncology, där en tysk forskargrupp använt AI för att utifrån bilder på hudförändringar upptäcka hudcancer.

När diagnostiska metoder utvärderas finns det två mått som är särskilt intressanta:

  • Specificitet: hur stor andel av de sjuka patienter som diagnosticeras som sjuka – en metod med hög specificitet missar sällan sjuka patienter.
  • Sensitivitet: hur stor andel av de friska patienterna som inte får sjukdomsdiagnosen – en metod med hög sensitivitet ger sällan felaktigt patienter en diagnos.

Svårigheten med det här är att så metoder som har hög specificitet ofta har låg sensitivitet, och vice versa – ska man verkligen upptäcka alla sjuka patienter måste man ta med många tveksamma fall, och då fångar man automatiskt upp många friska patienter också.

De 58 dermatologer som användes som jämförelsegrupp i den tyska studien nådde en specificitet på 75,7 % och en sensitivitet på 88,9 %. AI:n nådde vid samma sensitivitet en specificitet på 82,5 % och presterade därmed bättre än dermatologerna. Ett fint resultat för AI inom medicin! Metoden som användes – faltningsnätverk, kallade convolutional neural networks på engelska – har under flera år rönt stora framgångar inom andra problem som går ut på att få information från bilder.

I en ganska nära framtid kommer vi att se den här sortens verktyg för privat bruk – exempelvis en app i telefonen som kan bedöma hudförändringar. I sådana sammanhang blir det väldigt intressant med ansvarsfrågor. Vem är egentligen ansvarig om din app inte lyckas upptäcka din hudcancer?

Från medicin till massövervakning

Förra veckan publicerade forskare vid MIT och Microsoft en artikel i databasen arXiv där de beskriver ett AI-system som kan avgöra vilken puls och andningsrytm en person har, utifrån videobilder av personens ansikte. De möjliga medicinska tillämpningarna är intressanta: icke-invasiva mätmetoder som inte kräver elektroder förenklar för både patienter och vårdpersonal, och systemet verkar perfekt lämpat för användning av den yrkesgrupp som utgör de senaste årens stora vårdnyhet: nätläkarna.

En intressant aspekt, dels på det här systemet och dels på många av de andra nya AI-tekniker som kommer, är att AI-system oftast kan användas för mer än ett syfte. Det sker just nu en snabb utveckling inom AI-styrda övervakningssystem, inte minst hos nätbokjätten Amazon, som ligger bakom ansiktsigenkänningssystemet Rekognition. Systemet kan spåra en persons rörelse med hjälp av övervakningskameror och används redan av amerikanska myndigheter.

Frestelsen att kombinera övervakningssystemen med system som mäter stressignaler som höjd puls kommer vara omöjlig att motstå för dem som sköter övervakningen – med förhoppningen om att sådana signaler kan användas för att identifiera brottslingar och terrorister innan de hinner begå några brott. Beroende på vem man frågar är det här antingen en enorm möjlighet att förbättra allmänhetens säkerhet eller ett oförsvarbart intrång i våra privatliv, som dessutom riskerar att kraftigt öka antalet gånger som oskyldiga tas in för extra säkerhetskontroller.

De flesta AI-tekniker är tveeggade svärd, och företag och forskare som utvecklar dem har ett ansvar att fundera över teknikens etiska aspekter. Kan vår AI användas för andra ändamål än de som vi själva tänkt oss? Kan den användas för att skada eller vilseleda andra? Väger fördelarna som tekniken kan ge upp riskerna? I samtal om den nya tekniken måste vi alltid ha med de här frågorna – och fler.

AI inom medicin – en återvändsgränd?

Artificiell intelligens (AI) har under de senaste åren framställts som något som fullständigt kommer revolutionera sjukvården. Bland dem som leder hajpen märks Andrew Ng – Stanfordprofessor och ledande tänkare inom AI, med bakgrund på Google och Baidu:

Stämmer det som Ng säger – har radiologer snart gjort sitt inom vården? Nej, knappast. En närmare titt i Ngs artikel visar att deras AI-modell utan alltför stor marginal lyckats identifiera lunginflammation bättre än fyra radiologer i en studie med drygt 400 röntgenplåtar. Det betyder förstås inte att den är bättre än alla radiologer eller ens radiologer i allmänhet – och dessutom har stora problem med studien påpekats: radiologerna och AI:n verkar inte ha bedömt samma bilder (vilket försvårar jämförelsen) och i datamaterialet finns tveksamma gränsdragningar mellan närliggande diagnoser.

I förra veckan kom ett uppföljningsarbete där samma AI-system användes för att bedöma radiologiska bilder från andra delar av kroppen. Resultatet var att AI:n var sämre än alla de tre radiologer som också gjorde bedömningar utifrån bilderna. Så borde radiologer oroa sig för att ersättas av maskiner? Inte än på ett tag (och dessutom har de förstås långt fler arbetsuppgifter än att titta på bilder).

Förutom att de mycket uppmärksammade radiologiresultaten visat sig vara överdrivna kom i veckan också nyheten att IBM Watson Health tvingats avskeda 50-70 % av sin personal. IBMs Watson har länge setts som ledande inom medicinsk AI och precisionsmedicin, men nu visar det sig alltså inte gå så bra som man hoppats.

Det här leder förstås till en fråga – är AI inom medicin överhajpat? På kort sikt är svaret nog ja. På längre sikt är det nog nej. Men AI inom medicin är svårt. Det finns flera anledningar till det:

  • Dagens AI-system kräver stora mängder data för att nå bra resultat. För många sjukdomar finns det helt enkelt inte tillräckligt mycket data. Här finns förstås en stor potential för forskningsframsteg i de nordiska länderna, med våra stora nationella register.
  • Förutom kvantitet krävs också kvalitet – om AI:n matas med dåliga data (exempelvis data innehållandes feldiagnosticerade patienter) blir resultaten genast sämre.
  • Medicin är svårt och det är inte alltid lätt att på ett vettigt sätt dela in patienter i kategorier. Av den anledningen har man i flera AI-projekt valt att förenkla problemet genom att bara jämför fullt friska patienter med de allra svåraste fallen, vilket gör att man helt bortser från de mest svårbedömda (och därmed mest intressanta) fallen.

Framsteg inom medicin för AI kommer kräva nära samarbeten mellan AI-forskningen och vården – och inte minst en stor portion ärlighet. Det finns en enorm potential för användning av AI och maskininlärning inom vården, men vi måste också vara tydliga med de begränsningar som finns och inte överdriva hur långt vi redan har kommit.

  • Jag finns tillgänglig för att ge föredrag om AI inom medicin, där jag presenterar några aktuella exempel på framgångsrika försök (jodå, de finns också!), överdriven hajp, säkerhetsrisker och problem när artificiell intelligens används för diagnostiska syften. Kontakta mig för mer information.
  • Jag har sedan i vintras jobbat med det nederländska företaget Dairy Data Warehouse för att utveckla AI-drivna system inom veterinärmedicin. Mer om det projektet kommer på den här bloggen senare i år.