At få en artikel publiceret i det prestigefyldte tidsskrift Science er en milepæl for de fleste forskere. Men for internisten og AI-forskeren Adam Rodman har det også været en kilde til bekymring.
Torsdag offentliggjorde Rodman og hans kolleger en række eksperimenter, herunder ét baseret på reelle data fra en akutafdeling i Boston. Resultaterne viser, at OpenAIs store sprogmodel (LLM) klarer sig bedre end læger i diagnose- og klinisk ræsonnementstest baseret på cases.
For Rodman, der er medforfatter på studiet, er dette en direkte reaktion på en udfordring, der blev kastet i Science tilbage i 1959. Den dengang banebrydende artikel beskrev, hvordan man ville kunne afgøre, om et klinisk beslutningsstøttesystem kunne diagnosticere bedre end mennesker. »Og nu kan de gøre det,« siger han.
Advarsel mod overfortolkning af AI’s evner
Selvom generativ AI som chatbots markedsføres intensivt – både til patienter og sundhedspersonale – frygter Rodman, at resultaterne fra disse kontrollerede forsøg bliver misforstået som bevis for, at AI er sikker og effektiv til at behandle reelle patienter. Testene er udelukkende baseret på simulerede og historiske cases, hvilket ikke nødvendigvis afspejler virkeligheden på hospitalerne.
»Vi skal være forsigtige med at antage, at AI, der klarer sig godt i laboratoriet, automatisk er klar til klinisk brug,« understreger Rodman. »Der er stadig store udfordringer med at integrere sådanne systemer i den daglige praksis, herunder etiske, juridiske og sikkerhedsmæssige aspekter.«
Hvad betyder dette for fremtidens sundhedsvæsen?
Studiet rejser vigtige spørgsmål om, hvordan AI kan implementeres ansvarligt i sundhedsvæsenet. Selvom AI-teknologien udvikler sig hurtigt, er der stadig mange usikkerheder omkring dens pålidelighed og sikkerhed i reelle kliniske situationer.
Eksperter peger på behovet for yderligere forskning og strenge testprotokoller, før AI kan blive en integreret del af diagnostik og behandling. »Vi har brug for transparens og dokumentation for, at AI-systemer ikke kun fungerer i teorien, men også i praksis,« siger en anonym kilde fra Sundhedsstyrelsen.
«AI kan være et kraftfuldt værktøj, men det er ikke en erstatning for menneskelig ekspertise og klinisk skøn. Vi skal sikre, at teknologien understøtter – og ikke underminerer – den kvalitet, vi forventer i sundhedsvæsenet.»
Mens AI fortsætter med at vise lovende resultater i kontrollerede miljøer, understreger forskerne bag studiet, at der stadig er lang vej, før systemerne kan betragtes som pålidelige i hverdagen. Indtil da opfordrer de til forsigtighed og kritisk vurdering af AI’s rolle i medicinsk diagnostik.