Berichten

Van “black boxes” naar kunstmatig intelligente algoritmen die uitleggen hoe ze werken

Twee maanden geleden publiceerde een groep onderzoekers van het Britse Imperial College een artikel over hun kunstmatige intelligente clinicus: een set algoritmen die de beste behandeling voor het voorkomen van bloedvergiftiging (sepsis) kan aanbevelen. De software analyseerde een dataset met bijna vijftig variabelen van tegen de honderdduizend ziekenhuisopnames, en kon daarna de optimale behandeling adviseren. Volgens de auteurs was de sterfte het laagst bij de groep waarvan de artsen hadden gehandeld alsof ze de adviezen van het AI-systeem hadden opgevolgd.

Dit soort wetenschappelijke artikelen over de steeds betere prestaties van zelflerende systemen hebben in de afgelopen jaren een enorme opmars gemaakt. Maar het optimisme over de mogelijkheden van technieken als deep learning en neurale netwerken heeft ook nieuwe vragen opgeworpen. Die vragen hebben meestal betrekking over het onvermogen van de softwarematige “black boxes” om uit te leggen hoe ze tot hun conclusies komen.

De Britse auteurs van het eerder genoemde artikel markeren een trend waarbij de uitleg over de werking van AI net zo belangrijk is als het uiteindelijke resultaat van de voorspelling of voorgestelde behandeling. In de woorden van de auteurs: we probeerden inzicht te krijgen in de parameters die het meest belangrijk waren voor de optimale therapie. Ze wilden zeker weten dat de behandelsuggesties van hun AI systeem voor mensen te interpreteren zijn en uitgaan van klinische en biologische begrippen waarvan een dokter chocola kan maken.

Hoe werkt het algoritme?

“Uitlegbare kunstmatige intelligentie” is een begrip dat in de komende tijd steeds belangrijker zal worden, vooral in gebieden waar aanbevelingen van een AI-systeem een zaak van leven of dood kunnen zijn.  Onderzoekers van PricewaterhouseCoopers voelden dit al goed aan toen ze eind vorig jaar een rapport publiceerden met als intro: The $15 trillion question: Can you trust your AI?  En de Amerikaanse wiskundige Cathy O’Neil schreef een wereldwijde bestseller (Weapons of Math Destruction) over de gevaren van algoritmiek en big data. De noodzaak om inzicht te krijgen in de manier waarop AI-algoritmen classificeren, voorspellen en adviseren komt dus niet uit de lucht vallen, en dat inzicht breekt ook door bij medische toepassingen.

De ironie wil dat de wiskundige en statistische softwaretechnieken die in de afgelopen jaren het meest succesvol bleken om ziekten te voorspellen, als keerzijde hebben dat het vaak niet uit te leggen is hoe ze dat doen. Neurale netwerken evalueren een dataset op kenmerken en begrippen die weinig te maken hoeven te hebben met de begrippen die artsen of onderzoekers dagelijks gebruiken. Daarom is het moeilijk om te weten waarom je die die systemen eigenlijk zou kunnen vertrouwen.

Prestaties van lerende systemen gaan nu nog ten koste van transparantie over werking

Er zijn inmiddels veel bekende voorbeelden van algoritmen die heel goed zijn het herkennen van bepaalde afbeeldingen, maar die dat bij nader inzien op basis van irrelevante kenmerken doen. Een veelgebruikt voorbeeld is het neurale netwerk dat op het eerste gezicht feilloos afbeeldingen van poolhonden van afbeeldingen van wolven kan onderscheiden, maar bij nader inzicht alleen maar bekijkt of de achtergrond wit is. Daar kom je achter door inzichtelijk te maken welk deel van de afbeelding wordt gebruikt wordt gebruikt om de wolf van de poolhond te onderscheiden. Door zo’n grafisch hulpmiddel kun je zien dat het model helemaal niet naar kenmerken van het dier kijkt, maar naar de aanwezigheid van sneeuw. Het algoritme lijkt perfect te werken, maar is eenvoudig om te tuin leiden.

Wolf of poolhond?

Wanneer je dit voorbeeld verplaatst naar de context van tumorherkenning in MRI-beelden of het detecteren van hartritmestoornissen op ECG’s, dan wordt direct duidelijk hoe belangrijk het is om te weten welke kenmerken (features) en variabelen bijdragen aan een bepaald resultaat. Pas dan weet je of het algoritme niet onbedoeld van een irrelevant gegeven in een dataset met leergegevens uitgaat. Stel je bijvoorbeeld voor dat in een bepaald ziekenhuis mensen met een hoge verdenking op uitgezaaide kanker als eerste op de dag worden opgeroepen voor een onderzoek, en dat het tijdstip van een scan (wellicht per ongeluk) ook bij de dataset hoort. In dat geval zou een algoritmen kunnen concluderen: hoe vroeger de scan, hoe groter de kans op uitzaaiingen. Dat verband is er inderdaad wel, maar het is klinisch niet relevant en leidt niet tot nieuwe inzichten of kennis.

XAI en LIME

Er zijn inmiddels steeds meer academische initiatieven ontstaan om uitlegbaarheid en transparantie op een fundamenteel niveau in te bouwen in kunstmatig intelligente algoritmen. Het Amerikaanse ministerie van Defensie werkt via zijn research-organisatie DARPA aan het XAI (Explainable AI) project. Dat heeft als doelstelling om AI systemen het vermogen te geven om uitleg te geven over hoe ze redeneren, wat de sterke en zwakke kanten van het een algoritme zijn en een idee te krijgen van hun toekomstige gedrag (met andere datasets bijvoorbeeld).

Onderzoekers van de Universiteit van Washington werken al sinds 2016 aan LIME (Local Interpretable Model-Agnostic Explanations). Dat is een methode om, los van de softwaretechnieken die een algoritme gebruikt, op een voor mensen toegankelijke manier inzicht te krijgen in de werking van kunstmatige intelligentie. Om een eenvoudig voorbeeld te noemen: wanneer een AI-systeem de diagnose griep suggereert, zal een arts meer vertrouwen hebben in het algoritme wanneer de software kan aangeven dat variabelen als koorts, hoofdpijn en spierpijn het zwaarst meewegen bij een bepaalde patiënt.

Transparantie van AI-technieken is niet alleen relevant voor de medische sector. De nieuwe Europese privacy-wetgeving AVG bevat wetsartikelen die stellen dat een burger die te maken heeft met “geautomatiseerde besluitvorming” recht heeft op een uitleg van de logica die zo’n systeem volgt. Wanneer een computersysteem een eenvoudige beslisboom voor een kredietaanvraag volgt, dan is die uitleg nog goed te geven (los van de vraag of een bank daaraan tegemoet wil komen).

Ook banken gebruiken bij kredietaanvragen steeds vaker “geautomatiseerde besluitvorming’”

Maar bij beslissingen die door neurale netwerken worden genomen is de uitleg van de gevolgde logica veel lastiger. Juristen verwachten dat deze artikelen van de AVG door de snelle opkomst van AI in de komende jaren steeds relevanter zullen worden.

Hoe kan ik die beslissing vertrouwen?

Voor de gemiddelde consument heeft de uitlegbaarheid van AI meerdere kanten. Neem die kredietaanvraag weer. Het zou kunnen zijn dat een algoritme direct of indirect gebaseerd is op kenmerken als ras of geslacht, terwijl die kenmerken niet zouden mogen meespelen voor een bepaalde uitkomst. Het is ook interessant om te weten hoe gevoelig een algoritme is voor een dominante variabele, zodat consumenten die van het algoritme afhankelijk zijn weten waar ze aan toe zijn.

Wanneer het om medische diagnoses en behandelvoorstellen gaat, leek het tot voor kort nog ondenkbaar dat patiënten te maken krijgen met de “geautomatiseerde besluitvorming” waar de AVG naar refereert. Maar de ontwikkelingen gaan snel, en AI-algoritmen zijn inmiddels gecertificeerd als medisch hulpmiddel.

De zelfrijdende auto is misschien wel een metafoor voor de manier waarop kunstmatige intelligentie en mensen voorlopig zullen samenwerken: de algoritmen worden steeds beter, maar vooralsnog durven wetgevers hun burgers niet blind te laten varen op de AI aan het stuur. Die meeste consumenten zelf trouwens evenmin. Ook voor medische AI-toepassingen geldt een enorme belofte, en op het eerste gezicht aansprekende onderzoeksresultaten. De uitdaging voor de komende jaren is om in die systemen zoveel transparantie en zelfkennis te bouwen, dat artsen aan hun patiënten kunnen uitleggen waarom ze die systemen vertrouwen.

masterclass eHealth strategie

Vier AI ontwikkelingen in 2018

Gezondheidszorg is in opkomst als een prominent gebied voor AI-onderzoek en toepassingen. En bijna elk gebied in de branche zal worden beïnvloed door de opkomst van de technologie. SmartHealth over vier AI-trends waar we de aankomende jaren naar verwachting steeds meer van zullen merken.

Gezondheidszorg is bij uitstek een sector waar bergen data verzameld en gecreëerd worden, die nodig zijn voor kunstmatig intelligente software-toepassingen. MRI-scans worden gebruikt om algoritmes voor beeldherkenning te trainen. Ongestructureerde en gestructureerde data uit onder andere EPD’s kunnen worden gebruikt voor text mining modellen om te voorspellen welke patiënten eerder ontslagen kunnen worden of juist een risico lopen.

Toch zijn er nog veel uitdagingen voordat concrete toepassingen van kunstmatige intelligentie (AI) hun weg vinden in de zorgsector. Interoperabiliteit tussen IT-systemen, standaardisatie en databases die groot en betrouwbaar genoeg zijn, om er een paar te noemen. Ondanks die uitdagingen is de potentie van kunstmatige intelligentie in de zorg groot, zeggen zowel de sceptici als de technologie-optimisten.

1. Opkomst van AI als medisch hulpmiddel

In de afgelopen maanden keurde de Amerikaanse FDA meerdere software-toepassingen goed die gebouwd zijn op AI. Neurale netwerken blijken in staat om afwijkingen op te sporen, bijvoorbeeld bij medische beelden. Zo lukte het DeepMind om – in samenwerking met een Brits oogziekenhuis – met zijn neurale netwerk veelvoorkomende oogziektes te herkennen in oogscans (OCT), met dezelfde nauwkeurigheid van medische experts wanneer zij dezelfde beelden beoordelen.

Soms gaat het om toevalstreffers: door kunstmatig intelligente software kunnen ook nieuwe verbanden worden ontdekt. Het Amerikaanse bedrijf AliveCor – maker van ECG-apparatuur voor consumenten om hartritme filmpjes te maken – publiceerde eerder dit jaar op een congres van het American College of Cardiology de resultaten van een onderzoek waarbij hun algoritmen 2 miljoen hartfilmpjes en de bijbehorende 4 miljoen kalium bloedwaarden analyseerden. Dat de algoritmen op basis van een analyse van miljoenen ECG’s ook andere aandoeningen kunnen opsporen, bleek een onverwachte bijvangst te zijn: het algoritme bleek een grote voorspellende waarde te hebben om kaliumgehalte te bepalen.

AliveCor ECG iPhone

AliveCor werkte voor de ontwikkeling van de test met de cardiologieafdeling van de Mayo Clinic. Cardioloog Paul Friedman, de chef van die afdeling, zegt in een persbericht dat de test extreem goed presteert in het onderzoek. Volgens de cardioloog heeft AliveCor potentie om op een pijnloze en goedkope manier aan te tonen of het potentieel levensbedreigende kalium-overschot, dat prima kan worden behandeld, aanwezig is bij een patiënt.

2. AI in klinische studies

Met ResearchKit en CareKit van Apple boren medische onderzoekers en kennisinstellingen nieuwe databronnen aan: informatie van iPhone-gebruikers en van de sensoren in smartphones. Voor aandoeningen als Parkinson, autisme en hartritme-stoornissen zijn er grootschalige klinische studies waar wereldwijd deelnemers met hun smartphone aan mee kunnen doen.

“We snappen nog steeds niet goed waarom patiënten zo verschillen van elkaar”, aldus een onderzoeker, “en waarom therapieën en medicijnen verschillende uitkomsten hebben.” De dataverzameling via Apple’s ResearchKit geeft medische onderzoekers toegang tot een kwantiteit en kwaliteit van sensordata, videobeelden, foto’s en vragenlijsten die tot voor kort lastig te verkrijgen waren.

Neem bijvoorbeeld de ResearchKit-studie naar kinderen met autisme van de Amerikaanse Duke University, waar in juni de eerste resultaten werden gepubliceerd in tijdschrift npj Digital Medicine. Het doel van de Autism & Beyond studie was om te testen of iPhones inzetten voor dataverzameling geaccepteerd werd onder deelnemers en bruikbare resultaten opleverde, in de vorm van video’s van kinderen met een Autisme Spectrum Stoornis (ASS). Daarnaast wilde onderzoekers van Duke Medicine die videobeelden en data analyseren om te kijken of software de beelden correct kan coderen, dus emoties van jonge kinderen kan herkennen en kwantificeren, door het gebruik van kunstmatige intelligentie.

Nog een goed voorbeeld is de Parkinson Op Maatstudie van de Radbouduniversiteit Nijmegen en het Radboudumc, in samenwerking met Verily Life Sciences, een dochteronderneming van Google. Bij 135 deelnemers worden naast metingen in het ziekenhuis ook data verzameld door de smartwatch die Verily ter beschikking stelt. Door een grote groep mensen met parkinson een lange tijd nauwkeurig te volgen hopen de onderzoekers meer inzicht te krijgen in het ontstaan en verloop van de ziekte en de verschillen tussen mensen met parkinson.

“Nu worden verschillende onderzoeken uitgevoerd naar één onderwerp, bijvoorbeeld alleen hersenscans of alleen genetische informatie. Het mooie aan de Parkinson Op Maatstudie is dat we straks van heel veel mensen met parkinson informatie hebben over al deze terreinen. Hierdoor kunnen verschillende vakgebieden samen onderzocht worden”, aldus Rick Helmich, neuroloog in het Radboudumc en betrokken bij de Parkinson op Maatstudie.

3. AI in geneesmiddelenonderzoek

Ook geneesmiddelenfabrikanten experimenteren met deep learning om nieuwe geneesmiddelen te ontdekken. Grote farmaceuten werken samen met AI bedrijven om nieuwe moleculen, eiwitten en genetische verbanden te ontdekken die een stimulans kunnen zijn voor geneesmiddelen-onderzoek. Zo werkt Merck samen met startup Atmoswise, en GlaxoSmithKline met Insilico Medicine.

Nog een goed voorbeeld is Roche, die in februari 2018 het Amerikaanse Flatiron Health overnam voor bijna 2 miljard dollar. Flatiron’s oncologie-platform wordt in de Verenigde Staten door zo’n 2500 artsen gebruikt en bevat 2 miljoen patiëntendossiers. Voor Roche is die data uit elektronische patiëntendossiers en andere real world evidence cruciaal in het bepalen van successen en bijwerkingen van geneesmiddelen. Data die vervolgens weer gebruikt wordt voor de ontwikkeling van nieuwe medicatie.

4. Arts gezocht

Algoritmes moeten getraind worden, en dat betekent dat technologie-bedrijven soms tientallen medische professionals in dienst hebben. Om de algoritmes te trainen om oogscans (OCT) te beoordelen, moest DeepMind in samenwerking met Moorfield’s Eye Hospital in Groot-Brittannië eerst investeren in het labelen en opschonen van de database van OCT scans. Om die database – met ruim 14.000 scans – klaar te maken voor gebruik waren medische professionals met een getrainde blik. In enkele maanden tijd beoordeelden zij de OCT-beelden.

Ook de Chinese tech-gigant Alibaba heeft een vergelijkbaar verhaal, toen het in 2016 de eerste stappen zette met AI. Volgens Min Wanli, hoofd van de machine intelligence afdeling van Alibaba Cloud, ging het bedrijf eerst samenwerkingen aan met Chinese gezondheidsinstellingen en leveranciers van medische hulpmiddelen om toegang te krijgen tot medische data en beelden. “Eerst moesten we instellingen overtuigen om krachten te bundelen, om medische beelden te delen om onze algoritmes te trainen. Die medische beelden en data werden vervolgens geannoteerd door dokters en specialisten: wanneer een onderdeel geen labels of annotaties heeft, weten wij dus niet of het om een gezonde persoon of om een zieke persoon gaat. Dit was een belangrijke stap”, aldus Wanli.

onderzoeker Francesco Ciompi. Ciompi werkt aan de Diagnostic Image Analysis Group van het Radboudumc

Kunstmatige intelligentie en digitale pathologie in het Radboudumc

[Dit artikel verscheen eerder op SmartHealth.nl]

Software is inmiddels beter in het herkennen van weefselbeelden dan een ervaren patholoog, zegt onderzoeker Francesco Ciompi. Ciompi werkt aan de Diagnostic Image Analysis Group van het Radboudumc, en houdt zich bezig met onderzoek naar digitale pathologie en AI-systemen.

In het laboratorium van de onderzoeksgroep van het Radboudumc wordt weefsel onderzocht, voornamelijk van tumoren. Tumoren en biopten worden in dunne plakjes gesneden, gekleurd met chemicaliën en op een zogeheten coupe geplaatst. Die coupe wordt vervolgens gescand. Zo wordt een digitaal pathologie-beeld gecreëerd.

Het digitaliseren van pathologie-beelden is relatief nieuw. Decennia werden cellen door een microscoop met het getrainde oog van de patholoog bekeken. Door het digitaliseren van weefsel kunnen pathologen en onderzoekers de kracht van computers inzetten om deze beelden te analyseren. “We gebruiken deze digitale pathologie voor het opsporen van kanker, de segmentatie van kankergebieden en cellen, en het bestuderen van relaties tussen kankercellen en andere cellen”, aldus Ciompi.

Hulp van AI

De onderzoeker is enorm enthousiast over de mogelijkheden die kunstmatige intelligentie – en specifiek deep learning – biedt voor medische beelden. “Neem onderzoek naar lymfeklieren als voorbeeld. Bij borstkanker is het mogelijk dat kankercellen zijn uitgezaaid naar de lymfeklieren. In het ziekenhuislab moeten ruim tien of zelfs twintig coupes van die lymfeklieren onderzocht worden op de aanwezigheid van tumorcellen. Een tijdrovend proces, dat minutieus moet worden uitgevoerd.

Ciompi werkt met collega’s aan een computeralgoritme dat zelfstandig een diagnose kan stellen op basis van aangeleverde pathologiebeelden. Dat algoritme kan deze coupes analyseren en vergelijken met duizenden andere beelden van lymfeklieren, op zoek naar afwijkingen. “Techniek kan pathologen helpen om sneller en beter diagnoses te stellen.”

digitale_pathologie kunstmatige intelligentie AI

Ook bij het analyseren en kwantificeren van radiologie-beelden heeft AI grote potentie. Ciompi werkte ook mee aan een kunstmatige intelligent systeem om CT-scans te analyseren bij kankeronderzoek. “Longkanker wordt vaak pas in een late fase ontdekt. Door het analyseren van CT-scans – met hulp van kunstmatige intelligentie – kunnen we afwijkingen in een eerdere fase opsporen.”

Van maanden naar dagen

De van oorsprong Italiaanse Francesco Ciompi kwam in 2013 naar Nederland om als postdoc onderzoeker te werken. Hij heeft in de afgelopen tien jaar het gebied van kunstmatige intelligentie – of AI, artificial intelligence – enorm zien veranderen. “Toen ik startte met mijn onderzoek, duurde het maanden om zogeheten deep learning computermodellen te trainen. Nu is dat een kwestie van dagen of zelfs uren geworden.”

Dankzij de toename van de hoeveelheid data en sprongen op het gebied van computerkracht en graphics processing units, ofwel GPU’s – een grafische processor die nodig is om beelden te analyseren – heeft het vakgebied een enorme boost gehad, vertelt hij. “Met meer data en meer rekenkracht kunnen we nu ook modellen maken die tien jaar geleden niet bestonden. Met deep learning technologie leert een computer patronen herkennen op basis van een groot aantal voorbeelden, zoals pathologie- of radiologiebeelden. Hoe meer lagen we aan een deep learning model toevoegen, hoe meer een model kan leren over de data die je aanlevert.”

Begin 2017 publiceerden onderzoekers van de Amerikaanse Stanford Universiteit in Nature hun bevindingen waarbij een neuraal netwerk een dataset van 129.450 klinische afbeeldingen van huidaandoeningen gebruikte, om melanomen en kwaadaardige tumoren te onderscheiden. Het AI-systeem scoorde even goed als menselijke dermatologen, aldus de Stanford-onderzoekers.

Drie onderzoeksgroepen

In Nederland richten drie grote onderzoeksgroepen in Rotterdam, Utrecht en Nijmegen zich op het toepassen van machine learning voor medische beeldverwerking. Tientallen promovendi, artsen en data scientists werken bij het ErasmusMC, Radboudumc en UMC Utrecht aan algoritmes, en daarmee scoort Nederland op wereldschaal in de top-3 wanneer het om publicaties op dit gebied gaat.

Bij het Radboudumc werd twee keer een internationale competitie georganiseerd waar ruim twintig onderzoeksgroepen uit de hele wereld aan mee deden. Het doel: een computeralgoritme maken dat zelfstandig een diagnose kan stellen op basis van aangeleverde pathologiebeelden. Het beste algoritme kon net zo goed uitzaaiingen vinden als de patholoog die zonder tijdsdruk werkte, aldus Ciompi, en het algoritme overtrof daarmee de pathologen die de preparaten beoordeelden in een realistische werksituatie.

Patiëntenzorg

Maar dat betekent niet direct dat dit computeralgoritme in de patiëntenzorg bij het Radboudumc gebruikt wordt. “We zijn nu bezig met een pilot met de afdeling pathologie, om dit computeralgoritme in te zetten in de kliniek. We onderzoeken hoeveel tijd het kost om het algoritme beelden te laten analyseren, wat de beoordeling van het weefsel is volgens het systeem, en vergelijken dit met de beoordeling van de patholoog en de tijd die de reguliere zorg kost.”

De Diagnostic Image Analysis Group van het Radboudumc houdt zich bezig met onderzoek, niet met het vermarkten van de ontwikkelde computeralgoritmes. Daarvoor ontstaan spin-offs, bedrijven die technologie of kennis vanuit de academie naar het bedrijfsleven brengen. Twee spin-offs van het Radboudumc zijn Thirona en ScreenPoint, ScreenPoint haalde onlangs een investering van ruim 4 miljoen euro op – met behulp van Siemens – om zijn kunstmatig intelligente systeem gericht op mammografie-beelden verder te ontwikkelen.

En wat zegt Ciompi tegen collega’s die bang zijn dat hun baan overbodig wordt als een algoritme het overneemt? “Ik zie kunstmatige intelligentie en algoritmes als systemen die de arts of patholoog kunnen assisteren, met uitkomsten die objectief en reproduceerbaar moeten zijn. Daar werken we hard aan.”

“Besef ook dat algoritme worden beperkt door wat wij een computersysteem leren. Een computeralgoritme kan niet beredeneren zoals wij mensen dat doen, en kent geen menselijke creativiteit.”