Berichten

Van “black boxes” naar kunstmatig intelligente algoritmen die uitleggen hoe ze werken

Twee maanden geleden publiceerde een groep onderzoekers van het Britse Imperial College een artikel over hun kunstmatige intelligente clinicus: een set algoritmen die de beste behandeling voor het voorkomen van bloedvergiftiging (sepsis) kan aanbevelen. De software analyseerde een dataset met bijna vijftig variabelen van tegen de honderdduizend ziekenhuisopnames, en kon daarna de optimale behandeling adviseren. Volgens de auteurs was de sterfte het laagst bij de groep waarvan de artsen hadden gehandeld alsof ze de adviezen van het AI-systeem hadden opgevolgd.

Dit soort wetenschappelijke artikelen over de steeds betere prestaties van zelflerende systemen hebben in de afgelopen jaren een enorme opmars gemaakt. Maar het optimisme over de mogelijkheden van technieken als deep learning en neurale netwerken heeft ook nieuwe vragen opgeworpen. Die vragen hebben meestal betrekking over het onvermogen van de softwarematige “black boxes” om uit te leggen hoe ze tot hun conclusies komen.

De Britse auteurs van het eerder genoemde artikel markeren een trend waarbij de uitleg over de werking van AI net zo belangrijk is als het uiteindelijke resultaat van de voorspelling of voorgestelde behandeling. In de woorden van de auteurs: we probeerden inzicht te krijgen in de parameters die het meest belangrijk waren voor de optimale therapie. Ze wilden zeker weten dat de behandelsuggesties van hun AI systeem voor mensen te interpreteren zijn en uitgaan van klinische en biologische begrippen waarvan een dokter chocola kan maken.

Hoe werkt het algoritme?

“Uitlegbare kunstmatige intelligentie” is een begrip dat in de komende tijd steeds belangrijker zal worden, vooral in gebieden waar aanbevelingen van een AI-systeem een zaak van leven of dood kunnen zijn.  Onderzoekers van PricewaterhouseCoopers voelden dit al goed aan toen ze eind vorig jaar een rapport publiceerden met als intro: The $15 trillion question: Can you trust your AI?  En de Amerikaanse wiskundige Cathy O’Neil schreef een wereldwijde bestseller (Weapons of Math Destruction) over de gevaren van algoritmiek en big data. De noodzaak om inzicht te krijgen in de manier waarop AI-algoritmen classificeren, voorspellen en adviseren komt dus niet uit de lucht vallen, en dat inzicht breekt ook door bij medische toepassingen.

De ironie wil dat de wiskundige en statistische softwaretechnieken die in de afgelopen jaren het meest succesvol bleken om ziekten te voorspellen, als keerzijde hebben dat het vaak niet uit te leggen is hoe ze dat doen. Neurale netwerken evalueren een dataset op kenmerken en begrippen die weinig te maken hoeven te hebben met de begrippen die artsen of onderzoekers dagelijks gebruiken. Daarom is het moeilijk om te weten waarom je die die systemen eigenlijk zou kunnen vertrouwen.

Prestaties van lerende systemen gaan nu nog ten koste van transparantie over werking

Er zijn inmiddels veel bekende voorbeelden van algoritmen die heel goed zijn het herkennen van bepaalde afbeeldingen, maar die dat bij nader inzien op basis van irrelevante kenmerken doen. Een veelgebruikt voorbeeld is het neurale netwerk dat op het eerste gezicht feilloos afbeeldingen van poolhonden van afbeeldingen van wolven kan onderscheiden, maar bij nader inzicht alleen maar bekijkt of de achtergrond wit is. Daar kom je achter door inzichtelijk te maken welk deel van de afbeelding wordt gebruikt wordt gebruikt om de wolf van de poolhond te onderscheiden. Door zo’n grafisch hulpmiddel kun je zien dat het model helemaal niet naar kenmerken van het dier kijkt, maar naar de aanwezigheid van sneeuw. Het algoritme lijkt perfect te werken, maar is eenvoudig om te tuin leiden.

Wolf of poolhond?

Wanneer je dit voorbeeld verplaatst naar de context van tumorherkenning in MRI-beelden of het detecteren van hartritmestoornissen op ECG’s, dan wordt direct duidelijk hoe belangrijk het is om te weten welke kenmerken (features) en variabelen bijdragen aan een bepaald resultaat. Pas dan weet je of het algoritme niet onbedoeld van een irrelevant gegeven in een dataset met leergegevens uitgaat. Stel je bijvoorbeeld voor dat in een bepaald ziekenhuis mensen met een hoge verdenking op uitgezaaide kanker als eerste op de dag worden opgeroepen voor een onderzoek, en dat het tijdstip van een scan (wellicht per ongeluk) ook bij de dataset hoort. In dat geval zou een algoritmen kunnen concluderen: hoe vroeger de scan, hoe groter de kans op uitzaaiingen. Dat verband is er inderdaad wel, maar het is klinisch niet relevant en leidt niet tot nieuwe inzichten of kennis.

XAI en LIME

Er zijn inmiddels steeds meer academische initiatieven ontstaan om uitlegbaarheid en transparantie op een fundamenteel niveau in te bouwen in kunstmatig intelligente algoritmen. Het Amerikaanse ministerie van Defensie werkt via zijn research-organisatie DARPA aan het XAI (Explainable AI) project. Dat heeft als doelstelling om AI systemen het vermogen te geven om uitleg te geven over hoe ze redeneren, wat de sterke en zwakke kanten van het een algoritme zijn en een idee te krijgen van hun toekomstige gedrag (met andere datasets bijvoorbeeld).

Onderzoekers van de Universiteit van Washington werken al sinds 2016 aan LIME (Local Interpretable Model-Agnostic Explanations). Dat is een methode om, los van de softwaretechnieken die een algoritme gebruikt, op een voor mensen toegankelijke manier inzicht te krijgen in de werking van kunstmatige intelligentie. Om een eenvoudig voorbeeld te noemen: wanneer een AI-systeem de diagnose griep suggereert, zal een arts meer vertrouwen hebben in het algoritme wanneer de software kan aangeven dat variabelen als koorts, hoofdpijn en spierpijn het zwaarst meewegen bij een bepaalde patiënt.

Transparantie van AI-technieken is niet alleen relevant voor de medische sector. De nieuwe Europese privacy-wetgeving AVG bevat wetsartikelen die stellen dat een burger die te maken heeft met “geautomatiseerde besluitvorming” recht heeft op een uitleg van de logica die zo’n systeem volgt. Wanneer een computersysteem een eenvoudige beslisboom voor een kredietaanvraag volgt, dan is die uitleg nog goed te geven (los van de vraag of een bank daaraan tegemoet wil komen).

Ook banken gebruiken bij kredietaanvragen steeds vaker “geautomatiseerde besluitvorming’”

Maar bij beslissingen die door neurale netwerken worden genomen is de uitleg van de gevolgde logica veel lastiger. Juristen verwachten dat deze artikelen van de AVG door de snelle opkomst van AI in de komende jaren steeds relevanter zullen worden.

Hoe kan ik die beslissing vertrouwen?

Voor de gemiddelde consument heeft de uitlegbaarheid van AI meerdere kanten. Neem die kredietaanvraag weer. Het zou kunnen zijn dat een algoritme direct of indirect gebaseerd is op kenmerken als ras of geslacht, terwijl die kenmerken niet zouden mogen meespelen voor een bepaalde uitkomst. Het is ook interessant om te weten hoe gevoelig een algoritme is voor een dominante variabele, zodat consumenten die van het algoritme afhankelijk zijn weten waar ze aan toe zijn.

Wanneer het om medische diagnoses en behandelvoorstellen gaat, leek het tot voor kort nog ondenkbaar dat patiënten te maken krijgen met de “geautomatiseerde besluitvorming” waar de AVG naar refereert. Maar de ontwikkelingen gaan snel, en AI-algoritmen zijn inmiddels gecertificeerd als medisch hulpmiddel.

De zelfrijdende auto is misschien wel een metafoor voor de manier waarop kunstmatige intelligentie en mensen voorlopig zullen samenwerken: de algoritmen worden steeds beter, maar vooralsnog durven wetgevers hun burgers niet blind te laten varen op de AI aan het stuur. Die meeste consumenten zelf trouwens evenmin. Ook voor medische AI-toepassingen geldt een enorme belofte, en op het eerste gezicht aansprekende onderzoeksresultaten. De uitdaging voor de komende jaren is om in die systemen zoveel transparantie en zelfkennis te bouwen, dat artsen aan hun patiënten kunnen uitleggen waarom ze die systemen vertrouwen.

Hoe controleren we AI algoritmen?

Technologiegebieden kunstmatige intelligentie (AI) en big data zijn niet onomstreden. Trump en Cambridge Analytica, verkeersdoden door zelfsturende auto’s, algoritmen die zonder dat we ze helemaal begrijpen diabetes of hartritmestoornissen voorspellen; het zijn maar enkele voorbeelden van toepassingen die nieuwe ethische vragen oproepen.

Het is dan ook niet verwonderlijk dat de schrijvers en data-wetenschappers ook de gevaren van data-wetenschap willen belichten. De Amerikaanse wiskundige Cathy O’Neil, auteur van de wereldwijde bestseller Weapons of Math Destruction, gaat in haar boek in op de gevaren van algoritmiek en big data. O’Neil studeerde in Berkeley, promoveerde aan Harvard University en was wiskundehoogleraar aan het Amerikaanse Barnard College. Ze werkte ook in de financiële wereld op Wall Street als kwantitatief analist en bedenker en bouwer van wiskundige financiële modellen. Tot de crisis uitbrak, waarna ze zich aansloot bij de Occupy-beweging.

Op haar blog mathbabe.org waarschuwt ze al enkele jaren voor een te luchthartig gebruik van wiskundige modellen die op basis van big data in toenemende mate ons leven beheersen, zoals bij hypotheekaanvragen, sollicitaties en diagnostiek. “We zien modellen als goden, maar ze worden alleen begrepen door de hogepriesters van dit domein, wiskundigen en computerwetenschappers”, zegt ze in het voorwoord van haar boek.

Wij zijn Big Data

De Nederlandse hoogleraar Sander Klous is auteur van de bestseller Wij zijn Big Data. Hij is hoogleraar bij de Universiteit van Amsterdam (Big Data Ecosystems) en partner bij KPMG, verantwoordelijk voor data analytics. Toen Klous’ boek in 2014 uitkwam, was het begrip big data inmiddels bekend aan het raken bij het grote publiek, terwijl artificial intelligence nog aan zijn hype cycle moest beginnen. In eerste instantie was kunstmatige intelligentie ook erg afhankelijk van grote hoeveelheden data, bijvoorbeeld om systemen te trainen katten, honden, of fouten in laswerk te herkennen.

Inmiddels, zegt Klous, is er ook een generatie AI die geen grote hoeveelheden data nodig heeft om verbluffende resultaten te bereiken. Hij noemt het voorbeeld van AlphaGo, de software van AI bedrijf Deepmind die de menselijke wereldkampioen Lee Sedol in het oosters denkspel Go versloeg. De eerste versie van die software haalde zijn kennis uit een grote hoeveelheid analyses van ooit gespeelde partijen Go: big data dus. De laatste versie van de software, toepasselijk AlphaGo Zero genoemd, gebruikt nul kennis over door mensen gespeelde partijen Go, maar heeft door tegen zichzelf te spelen en daarvan te leren het niveau van een wereldkampioen bereikt. Klous legt uit dat je big data en AI als twee cirkels kunt zien die, afhankelijk van de toepassing, in min of meerdere mate overlappen.

Hij vergelijkt de huidige situatie van AI met die van big data in 2014. “Er waren pilots, proof-of-concepts en grotere IT-bedrijven al langer bezig met het gebruik van big data. Maar de meeste organisaties moesten nog worden overtuigd van de werkelijke waarde van de technologie. Dat kwartje is nu wel gevallen. Ik verwacht dat AI dezelfde ontwikkeling zal doormaken, en dat we dus nog enkele jaren nodig hebben voor de echte doorbraak.”

Agile en kleinschalig aanpakken

Klous wijst erop dat ondernemingen als Facebook, Google en Amazon wel veel ervaring hebben. “Die zijn allemaal al vanaf pakweg 2010 intensief bezig met het toepassen van zelflerende algoritmen, al dan niet in combinatie met big data. Daardoor hebben ze een enorme voorsprong.”

In de zorgsector klinken steeds vaker waarschuwende woorden wanneer het om de toepassing van big data en AI gaat. De toepassingen van zelflerende algoritmen op grote hoeveelheden bestaande data (ziekenhuisdossiers bijvoorbeeld) en nieuwe data (wearables, sensoren) levert bijna wekelijks wel nieuws op over voorspellende toepassingen. “Ik begrijp de motieven van de mensen die waarschuwen voor een te snelle toepassing van nieuwe algoritmen zonder gedegen bewijs of verder onderzoek”, zegt Klous. Hij geeft echter ook aan dat het niet om een alles of niets vraag gaat. “De toepassing van big data of AI in de zorgsector leent zich goed voor een zogeheten agile aanpak, waarbij je in een proof-of-concept setting onderzoekt of je aannames kloppen en verder bewijs verzamelt.”

Hij geeft een voorbeeld uit de psychiatrie, waarbij big data analyse aan het licht bracht waardoor sommige patiënten enkele dagen na hun opname agressief werden. Zij bleken kort voor hun opname nog drugs te hebben gebruikt, en leden aan ontwenningsverschijnselen. Het intake formulier vroeg wel naar druggebruik, maar niet of de patiënt 24 uur voor opname nog had gebruikt. “Die vraag werd toegevoegd, en na enkele maanden kon je vaststellen dat de medische staf beter kon anticiperen op deze groep. Het is een klein project, maar de effecten waren groot.”

Assurance nodig voor algoritmen

Een waarschuwing die ook vaak klinkt rond big data en AI is dat een gevonden correlatie nog niets zegt over oorzaak en gevolg. Klous onderschrijft dat, maar geeft tegelijk aan dat een gevonden correlatie nog steeds nut kan bewijzen, zelfs wanneer het oorzakelijke verband (nog) niet bekend is. Hij wijst op een voorbeeld dat Oxford professor Viktor Mayer-Schönberger in zijn boek De big data revolutie noemt.

Canadese big data onderzoekers kwamen erachter dat de vitale lichaamsfuncties van vroeggeboren babies zich in de 24 uur voordat een infectie optreedt stabiliseren. Dat lijkt voor de medische staf geruststellend, maar is dus een voorbode van een potentieel levensgevaarlijke situatie. Ook zonder het verband tussen de stabielere lichaamsfuncties en de infectie te kennen, kon hier eerder begonnen worden met een behandeling, omdat het algoritme een betrouwbare voorspeller was.

Klous is wel een groot voorstander van maximale transparantie over de onderliggende werking van algoritmen en eventueel de data die ze gebruiken. “Vanuit KPMG gaan wij ons steeds meer bezighouden met het verstrekken van assurance voor algoritmen, vergelijkbaar met de controle die we nu voor financiële jaarrekeningen uitvoeren. AI en big data mogen geen black box zijn, vooral niet wanneer ze steeds vaker worden toegepast voor kritische bedrijfsprocessen of zorgtoepassingen. Dat we de verbanden die algoritmen vinden niet meteen begrijpen is acceptabel, maar de algoritmen zelf moeten uitlegbaar en wetenschappelijk verantwoord zijn.”