Uit recent onderzoek blijkt dat miljoenen Amerikanen AI-chatbots raadplegen voor medisch advies, vaak in plaats van een arts te bezoeken. Dit terwijl wetenschappers steeds vaker ernstige tekortkomingen ontdekken in grote taalmodellen die zogenaamd medische dossiers kunnen samenvatten en advies geven op basis van tekstinvoer.
Een van de grootste problemen is het fenomeen van 'hallucinaties': AI-modellen genereren soms gedetailleerde klinische bevindingen op basis van afbeeldingen die ze nooit hebben gezien, of vallen voor nepziekten die onderzoekers speciaal hebben bedacht om ze te testen. Het is dan ook geen verrassing dat wetenschappers twijfelen of patiënten, zorgverleners of zorgsystemen AI überhaupt moeten omarmen, zeker gezien het gebrek aan bewijs voor echte voordelen in de praktijk.
Een scherp kritisch hoofdartikel, gepubliceerd op dinsdag in het vooraanstaande medische tijdschrift Nature Medicine, onderstreept deze zorgen. Volgens de redactie is er geen overtuigend bewijs dat AI-tools waarde toevoegen voor patiënten, zorgverleners of zorgsystemen. Toch worden in publicaties en marketingmateriaal steeds vaker claims gemaakt over klinische impact, zonder dat er consensus bestaat over welk bewijsniveau nodig is om dergelijke beweringen als geloofwaardig te beschouwen.
Het hoofdartikel roept op tot het ontwikkelen van een kader voor de evaluatie van AI-medische technologieën. Dit kader moet duidelijk maken welke meetmethoden en benchmarks moeten worden gebruikt. Zonder zo’n systeem dreigen wetenschappelijke onzekerheid en voortijdige implementatie van onbetrouwbare technologie.
AI presteert slecht bij onduidelijke symptomen
Onder ideale experimentele omstandigheden lijken AI-modellen vaak overtuigende medische adviezen te geven, maar in de praktijk blijken ze vaak tekort te schieten. Een recente studie in JAMA Medicine toonde aan dat geavanceerde AI-modellen bij onduidelijke symptomen in meer dan 80% van de gevallen de verkeerde diagnose stelden.
Risico’s van overmatig vertrouwen in AI
Ook in klinisch onderzoek blijft het gebruik van AI omstreden. Hoewel grote taalmodellen uitblinken in het samenvatten en analyseren van data, waarschuwen onderzoekers voor hun beperkingen. Jamie Robertson, assistent-professor chirurgie aan de Harvard Medical School, zei hierover:
‘AI kan helpen bij het versnellen van saaie en uitdagende processen, zoals het genereren van code voor data-analyse of het suggereren van scenario’s. Maar het is cruciaal dat mensen die met AI werken in klinische studies bekend zijn met de juiste en verkeerde toepassingen, en deze in de juiste context gebruiken.’
Overmatig vertrouwen in AI kan leiden tot het opofferen van wetenschappelijke nauwkeurigheid. Dit brengt het risico met zich mee dat overgeneralisaties en zelfs hallucinaties zich verspreiden in de medische literatuur. Een opvallend voorbeeld hiervan is het experiment van Almira Osmanovic Thunström, medisch onderzoeker aan de Universiteit van Göteborg. Zij plaatste twee duidelijk nepstudies op een preprintserver om grote taalmodellen te misleiden en te laten denken dat een verzonnen huidziekte echt was. Al snel werden deze nepstudies geciteerd in andere, later ingetrokken wetenschappelijke artikelen, wat de vraag oproept over de betrouwbaarheid van dergelijke data.
De toekomst van AI in de gezondheidszorg hangt niet alleen af van betere modellen en nieuwe toepassingen, maar ook van strengere evaluatie en transparantie. Zonder deze stappen blijft de implementatie van AI in de zorg een risicovolle zaak.