Berichten

Professor dr. Maartje Schermer, bijzonder hoogleraar Filosofie van de geneeskunde (ErasmusMC)

Welke artseneed is er voor kunstmatig intelligente dokters?

[Dit artikel verscheen eerder op SmartHealth.nl]

Wanneer je op de spoedpost arriveert met een gebroken bot dat zichtbaar uit een gapende wond steekt, dan ben je beter af met een ervaren trauma-arts dan met kunstmatige intelligente software. Maar voor een groot aantal minder acute medische toepassingen blijken digitale dokters nuttig te zijn, en in sommige gevallen zelfs beter te presteren dan mensen. Die razendsnelle opkomst van zogeheten artificial intelligence (AI) wekt beloften, maar roept ook veel vragen op, zegt prof. Maartje Schermer.

Het Centrum voor Ethiek en Gezondheid (CEG) publiceerde afgelopen week een zogeheten signalement dat probeert de ethische aspecten van computersoftware die medische taken uitvoert in kaart te brengen. In de publicatie Digitale dokters, een ethische verkenning van medische expertsystemen wordt in eerste paragraaf wordt direct de toon gezet: “De verwachtingen van medische expertsystemen zijn groots, maar vooralsnog worden die verwachtingen niet waargemaakt.”

“Die hooggestemde verwachtingen zijn een algemeen beeld bij technologische ontwikkelingen”, zegt professor dr. Maartje Schermer. Zij is bijzonder hoogleraar Filosofie van de geneeskunde (ErasmusMC) en voorzitter van de CEG-commissie die verantwoordelijk is voor de uitgave. Het in het signalement geconstateerde verschil tussen verwachtingen en werkelijkheid is een subjectief oordeel, dat niet op uitgebreid wetenschappelijk onderzoek is gebaseerd, erkent Schermer desgevraagd. Het geeft volgens haar wel aan dat ook op andere plaatsen waarschuwende woorden te horen zijn over onrealistische verwachtingen dat de computer op korte termijn de dokter kan vervangen.

Medisch expertsysteem?

Waar hebben de auteurs het over? Medische expertsystemen zijn gebaseerd op kunstmatige intelligentie die artsen of andere zorgverleners kunnen assisteren bij bijvoorbeeld bij triage (indeling van patiënten naar ernst van een ziektebeeld) of bij het opstellen van een prognose, diagnose, medicatieplan of behandelvoorstel.

Volgens het CEG zijn er twee smaken te onderscheiden in medische expertsystemen: software met ingebouwde regelgebaseerde (rule-based) redeneermechanismen, en software die zelflerend te werk gaat, op basis van machine learning of het meer geavanceerde deep learning. Regelgebaseerde medische systemen bestaan al een aantal decennia, en worden geprogrammeerd met behandeladviezen en medische richtlijnen als basis. Een voorbeeld is Oncoguide, ontwikkeld door het Integraal kankercentrum Nederland (IKNL). Dit systeem genereert via ‘beslisbomen’ patiëntspecifieke behandeladviezen, op basis van (ziekte)gegevens van de patiënt uit het elektronisch patiëntendossier en Nederlandse oncologische richtlijnen. Verandert de richtlijn, dan verandert het systeem ook.

Dit kunnen ook relatief simpele regelgebaseerde systemen zijn, zoals een geautomatiseerde waarschuwing in een EPD als er een gevaarlijke interactie dreigt tussen twee voorgeschreven medicijnen. Daar tegenover zet het CEG een zelflerend systeem, dat niet door mensen wordt voorgeprogrammeerd zoals een regelgebaseerd systeem. Een zelflerend systeem ‘leert’ en neemt beslissingen op basis van patronen in de beschikbare data.

Trainen met data

Maar die data vormt tegelijkertijd een belemmering, aangezien ‘zelflerende’ expertsystemen gevoed moeten worden met (trainings)data. Een oncologische expertsysteem kan bijvoorbeeld getraind wordt met data uit een elektronisch patiëntendossier en aanvullende patiëntinformatie, zoals DNA- of genetisch onderzoek. Maar die data zouden wel eens minder representatief kunnen zijn voor andere (minder complexe) patiënten, buiten de context van een gespecialiseerd ziekenhuis, suggereren de auteurs.

Zeker bij gegevens die niet uit randomised controlled trials verkregen worden, kan vertekening niet worden uitgesloten. Dat probleem speelt met name voor zelflerende systemen, omdat bij die systemen niet duidelijk is welke gegevens zijn gebruikt, concludeert het signalement. “Zelflerende systemen kunnen weliswaar ‘grote hoeveelheden data’ verwerken maar daarvoor moeten ontwikkelaars wel toegang hebben tot die data, en die toegang is natuurlijk nooit volledig”, stellen de auteurs. En zelfs als dat wel zo is, wie bepaalt welke gegevens wel en niet beschikbaar worden gesteld voor het systeem? Wat volgens het signalement zeker niet bijdraagt aan de discussie is weinig openheid die bedrijven als DeepMind en IBM geven in de werking van hun technologie.

Ethische vragen

Maartje Schermer benadrukt dat het CEG niet vindt dat we pas op de plaats moeten maken met de ontwikkeling van deze technologie, voorzover een klein land als Nederland dat al zou kunnen. “Bij de invoering van deze technologie zijn allerlei partijen betrokken die een belang kunnen hebben dat niet hetzelfde hoeft te zijn als dat van de patiënt of consument. Wij vinden het belangrijk dat we voor de klakkeloze invoering ervan aandacht vragen voor mogelijke bijeffecten of nadelige gevolgen.

Schermer vindt het belangrijk dat gebruikers inzicht hebben in de manier waarop zo’n systeem tot een diagnose of behandelvoorstel komt. “Je moet immers kunnen beoordelen of een behandelvoorstel van een expertsysteem medisch en ethisch te verdedigen is.”

Quantib software voor hersenonderzoek

Het signalement besteedt daarnaast aandacht aan de veranderde rol van de arts bij het gebruik van expertsystemen. Hoe staat het met hun professionele verantwoordelijkheid wanneer ze een waarschuwing of advies van een systeem niet opvolgen, bijvoorbeeld omdat ze het in een bepaalde situatie niet toepasbaar vinden? Schermer: “Een andere interessante vraag is of het wel ethisch is om expertsystemen niet te gebruiken wanneer die voor bepaalde taken aantoonbaar beter presteren dan menselijke artsen.”

De inzet van expertsystemen zal van invloed zijn op de relatie tussen de arts en de patiënt, verwachten de auteurs: “Als expertsystemen een grotere rol zullen spelen bij het identificeren van behandelopties, dan rijst de vraag hoe ze zich zullen verhouden tot de afwegingen van de individuele patiënt, en zijn wens om de eigen regie te voeren.” Volgens Schermer geldt ook hier dat arts en patiënt te allen tijde inzicht moeten hebben in de manier waarop prognoses of adviezen tot stand komen en wat de doelen zijn, bijvoorbeeld langer leven of een hogere kwaliteit van leven.

“Vragen in ieder geval benoemen”

Het signalement eindigt met vragen rond privacy en aansprakelijkheid, zoals deze: “Als artsen en patiënten in de toekomst meer taken delegeren aan expertsystemen, en er meer ‘automatisch’ op vertrouwen, moeten de ontwikkelaars van expertsystemen dan niet ten minste deels verantwoordelijk gesteld kunnen worden voor fouten?”

Schermer geeft volmondig toe dat de signalement meer vragen oproept dan dat de publicatie antwoorden biedt (ook al is een hoofdstuk met adviezen opgenomen). “In deze fase van deze veelbelovende technologie is het vooral belangrijk om ethische vragen en overwegingen te signaleren die door andere belanghebbenden, zoals de software-industrie, niet vanzelf aan de orde worden gesteld. Dat geldt ook voor de veranderende relatie tussen artsen en hun patiënten. Het is belangrijk dat die vragen in ieder geval benoemd worden.”

Hoe controleren we AI algoritmen?

Technologiegebieden kunstmatige intelligentie (AI) en big data zijn niet onomstreden. Trump en Cambridge Analytica, verkeersdoden door zelfsturende auto’s, algoritmen die zonder dat we ze helemaal begrijpen diabetes of hartritmestoornissen voorspellen; het zijn maar enkele voorbeelden van toepassingen die nieuwe ethische vragen oproepen.

Het is dan ook niet verwonderlijk dat de schrijvers en data-wetenschappers ook de gevaren van data-wetenschap willen belichten. De Amerikaanse wiskundige Cathy O’Neil, auteur van de wereldwijde bestseller Weapons of Math Destruction, gaat in haar boek in op de gevaren van algoritmiek en big data. O’Neil studeerde in Berkeley, promoveerde aan Harvard University en was wiskundehoogleraar aan het Amerikaanse Barnard College. Ze werkte ook in de financiële wereld op Wall Street als kwantitatief analist en bedenker en bouwer van wiskundige financiële modellen. Tot de crisis uitbrak, waarna ze zich aansloot bij de Occupy-beweging.

Op haar blog mathbabe.org waarschuwt ze al enkele jaren voor een te luchthartig gebruik van wiskundige modellen die op basis van big data in toenemende mate ons leven beheersen, zoals bij hypotheekaanvragen, sollicitaties en diagnostiek. “We zien modellen als goden, maar ze worden alleen begrepen door de hogepriesters van dit domein, wiskundigen en computerwetenschappers”, zegt ze in het voorwoord van haar boek.

Wij zijn Big Data

De Nederlandse hoogleraar Sander Klous is auteur van de bestseller Wij zijn Big Data. Hij is hoogleraar bij de Universiteit van Amsterdam (Big Data Ecosystems) en partner bij KPMG, verantwoordelijk voor data analytics. Toen Klous’ boek in 2014 uitkwam, was het begrip big data inmiddels bekend aan het raken bij het grote publiek, terwijl artificial intelligence nog aan zijn hype cycle moest beginnen. In eerste instantie was kunstmatige intelligentie ook erg afhankelijk van grote hoeveelheden data, bijvoorbeeld om systemen te trainen katten, honden, of fouten in laswerk te herkennen.

Inmiddels, zegt Klous, is er ook een generatie AI die geen grote hoeveelheden data nodig heeft om verbluffende resultaten te bereiken. Hij noemt het voorbeeld van AlphaGo, de software van AI bedrijf Deepmind die de menselijke wereldkampioen Lee Sedol in het oosters denkspel Go versloeg. De eerste versie van die software haalde zijn kennis uit een grote hoeveelheid analyses van ooit gespeelde partijen Go: big data dus. De laatste versie van de software, toepasselijk AlphaGo Zero genoemd, gebruikt nul kennis over door mensen gespeelde partijen Go, maar heeft door tegen zichzelf te spelen en daarvan te leren het niveau van een wereldkampioen bereikt. Klous legt uit dat je big data en AI als twee cirkels kunt zien die, afhankelijk van de toepassing, in min of meerdere mate overlappen.

Hij vergelijkt de huidige situatie van AI met die van big data in 2014. “Er waren pilots, proof-of-concepts en grotere IT-bedrijven al langer bezig met het gebruik van big data. Maar de meeste organisaties moesten nog worden overtuigd van de werkelijke waarde van de technologie. Dat kwartje is nu wel gevallen. Ik verwacht dat AI dezelfde ontwikkeling zal doormaken, en dat we dus nog enkele jaren nodig hebben voor de echte doorbraak.”

Agile en kleinschalig aanpakken

Klous wijst erop dat ondernemingen als Facebook, Google en Amazon wel veel ervaring hebben. “Die zijn allemaal al vanaf pakweg 2010 intensief bezig met het toepassen van zelflerende algoritmen, al dan niet in combinatie met big data. Daardoor hebben ze een enorme voorsprong.”

In de zorgsector klinken steeds vaker waarschuwende woorden wanneer het om de toepassing van big data en AI gaat. De toepassingen van zelflerende algoritmen op grote hoeveelheden bestaande data (ziekenhuisdossiers bijvoorbeeld) en nieuwe data (wearables, sensoren) levert bijna wekelijks wel nieuws op over voorspellende toepassingen. “Ik begrijp de motieven van de mensen die waarschuwen voor een te snelle toepassing van nieuwe algoritmen zonder gedegen bewijs of verder onderzoek”, zegt Klous. Hij geeft echter ook aan dat het niet om een alles of niets vraag gaat. “De toepassing van big data of AI in de zorgsector leent zich goed voor een zogeheten agile aanpak, waarbij je in een proof-of-concept setting onderzoekt of je aannames kloppen en verder bewijs verzamelt.”

Hij geeft een voorbeeld uit de psychiatrie, waarbij big data analyse aan het licht bracht waardoor sommige patiënten enkele dagen na hun opname agressief werden. Zij bleken kort voor hun opname nog drugs te hebben gebruikt, en leden aan ontwenningsverschijnselen. Het intake formulier vroeg wel naar druggebruik, maar niet of de patiënt 24 uur voor opname nog had gebruikt. “Die vraag werd toegevoegd, en na enkele maanden kon je vaststellen dat de medische staf beter kon anticiperen op deze groep. Het is een klein project, maar de effecten waren groot.”

Assurance nodig voor algoritmen

Een waarschuwing die ook vaak klinkt rond big data en AI is dat een gevonden correlatie nog niets zegt over oorzaak en gevolg. Klous onderschrijft dat, maar geeft tegelijk aan dat een gevonden correlatie nog steeds nut kan bewijzen, zelfs wanneer het oorzakelijke verband (nog) niet bekend is. Hij wijst op een voorbeeld dat Oxford professor Viktor Mayer-Schönberger in zijn boek De big data revolutie noemt.

Canadese big data onderzoekers kwamen erachter dat de vitale lichaamsfuncties van vroeggeboren babies zich in de 24 uur voordat een infectie optreedt stabiliseren. Dat lijkt voor de medische staf geruststellend, maar is dus een voorbode van een potentieel levensgevaarlijke situatie. Ook zonder het verband tussen de stabielere lichaamsfuncties en de infectie te kennen, kon hier eerder begonnen worden met een behandeling, omdat het algoritme een betrouwbare voorspeller was.

Klous is wel een groot voorstander van maximale transparantie over de onderliggende werking van algoritmen en eventueel de data die ze gebruiken. “Vanuit KPMG gaan wij ons steeds meer bezighouden met het verstrekken van assurance voor algoritmen, vergelijkbaar met de controle die we nu voor financiële jaarrekeningen uitvoeren. AI en big data mogen geen black box zijn, vooral niet wanneer ze steeds vaker worden toegepast voor kritische bedrijfsprocessen of zorgtoepassingen. Dat we de verbanden die algoritmen vinden niet meteen begrijpen is acceptabel, maar de algoritmen zelf moeten uitlegbaar en wetenschappelijk verantwoord zijn.”