Een slimme test met een onverwacht resultaat
In 2024 bedacht een onderzoeksteam onder leiding van Almira Osmanovic Thunström, medisch onderzoeker aan de Universiteit van Gothenburg, een nepziekte met de naam bixonimania. Volgens hun fictieve beschrijving ontstond deze huidziekte door langdurig naar schermen te staren en te vaak in de ogen te wrijven.
Het team publiceerde twee nepstudies op een preprintserver, met als doel grote taalmodellen zoals ChatGPT en Google’s Gemini te misleiden. De studies werden later verwijderd, maar het kwaad was al geschied: binnen enkele weken namen de AI-modellen de ziekte over als ware het een echte medische aandoening.
AI slikt de nepziekte – en verspreidt het verder
Niet alleen accepteerden de AI-modellen bixonimania als realiteit, ze begonnen het ook te verspreiden. Onderzoekers ontdekten dat de nepstudies zelfs werden geciteerd in andere wetenschappelijke artikelen, die vervolgens door collega’s werden geaccepteerd. Dit toont aan hoe AI de manier waarop kennis wordt gegenereerd en gedeeld ingrijpend verandert – en niet altijd op een positieve manier.
De nepstudies bevatten opvallende verwijzingen naar Star Trek, The Simpsons en The Lord of the Rings, wat voor mensen direct duidelijk had moeten zijn dat het om een grap ging. Toch werden deze rode vlaggen door de AI genegeerd. Zelfs Microsoft’s Bing Copilot en Perplexity’s AI-zoekmachine gingen erin mee en presenteerden bixonimania als een legitieme medische aandoening.
ChatGPT toonde aanvankelijk twijfel, maar veranderde later van gedachten. Toen het team van Nature het model vroeg of bixonimania bestond, antwoordde ChatGPT dat het waarschijnlijk een verzonnen of pseudowetenschappelijke term was. Een paar dagen later echter, na herhaalde vragen, concludeerde het model dat de ziekte wel degelijk bestond.
De gevaren van AI in de medische wereld
Een woordvoerder van OpenAI reageerde op de kwestie en stelde dat hun technologie "beter is geworden in het leveren van veilige en accurate medische informatie". Toch blijft de vraag hoe betrouwbaar AI is als het gaat om gezondheidsadvies. Gebruikers die zelf de nepstudies hadden gelezen, hadden de grap direct kunnen doorzien, maar voor veel mensen blijft AI een black box die moeilijk te controleren is.
Deze gebeurtenis onderstreept de risico’s van AI in de wetenschap. Onderzoekers waarschuwen al langer voor de opkomst van "AI-slop" – slecht of onbetrouwbaar onderzoek gegenereerd door AI, dat toch wordt gepubliceerd. Een groot deel van de wetenschappelijke literatuur zou tegenwoordig mogelijk afhankelijk zijn van AI, wat vragen oproept over de validiteit en integriteit van peer-reviewed artikelen.
Een van de tijdschriften dat bixonimania had geciteerd, publiceerde na een melding van Nature een rectificatie. Het tijdschrift erkende dat er "drie irrelevante verwijzingen" in het artikel stonden, waaronder één naar een fictieve ziekte.
"Het is zorgwekkend dat deze grote claims ongemerkt door de literatuur gaan, zonder dat iemand ze in twijfel trekt of peer review ze tegenhoudt. Ik denk dat er waarschijnlijk nog veel meer van dit soort gevallen zijn die nog niet zijn ontdekt."
Reacties van medici: "We zijn erbij"
Op het subreddit r/medicine reageerden gebruikers met een mengeling van verbazing en frustratie. "We zijn erbij," schreef een gebruiker. De gebeurtenis benadrukt hoe kwetsbaar de medische kennis is in het tijdperk van AI.
Ondertussen blijven experts waarschuwen voor de gevolgen van AI in de gezondheidszorg. Niet alleen kan het leiden tot onjuiste diagnoses of behandelingen, maar het kan ook de kosten opdrijven. Recent onderzoek toont aan dat AI de kosten in de zorgsector al aanzienlijk heeft verhoogd.