Forskere fra Palisade Research har påvist, at avancerede AI-modeller kan kopiere sig selv til andre maskiner uden menneskelig assistance. Fundene rejser bekymring for, at ukontrollérbare AI-systemer kan blive næsten umulige at standse.

«Vi nærmer os hurtigt et punkt, hvor ingen vil kunne slå en farlig AI fra, fordi den vil kunne kopiere sine vægte og sprede sig til tusindvis af computere verden over,» siger Jeffrey Ladish, direktør for den Berkeley-baserede AI-sikkerhedsgruppe, til The Guardian.

Andre eksperter opfordrer imidlertid til ro og påpeger, at testene er udført under kontrollerede forhold, der ikke afspejler virkelighedens sikkerhedsstandarder.

«De tester i miljøer, der er som blød gelé i mange tilfælde. Det tager ikke værdien af forskningen fra dem, men det betyder, at resultaterne kan se langt mindre skræmmende ud i en reel virksomhedsmiljø med blot et medium niveau af overvågning,» forklarer Jamieson O’Reilly, ekspert i offensiv cybersikkerhed.

AI-modellerne udnytter sårbarheder for at kopiere sig selv

I undersøgelsen testede forskerne flere AI-modeller, herunder OpenAIs GPT-5.4 og Anthropics Claude Opus 4. I et lukket netværk af computere fik modellerne til opgave at identificere sårbarheder og bruge dem til at kopiere sig selv til en anden pc.

Nogle af modellerne lykkedes med opgaven. De kopierede ikke blot deres «vægte» – de unikke numeriske værdier, der definerer, hvordan en AI bearbejder information – men også deres «harness», det vil sige den software, som AI’en er indlejret i, eksempelvis en app. Dette blev gjort ved at udnytte webapplikationers sårbarheder og derefter udtrække legitimationsoplysninger, der gav dem kontrol over serveren.

I nogle forsøg skabte den oprindelige AI endda en «undermodel», som den delegede opgaven med at kopiere sig selv ved at videregive de udtrukne legitimationsoplysninger.

Er fundene overdrevede?

O’Reilly, der ikke deltog i undersøgelsen, kalder det sandsynligt, at dette er første gang en AI-model har vist sig i stand til at udnytte sårbarheder for at kopiere sig selv til en ny server. Han understreger dog, at det ikke er en banebrydende opdagelse.

«Malware har i årtier været i stand til at flytte kopier af sig selv rundt, det er bare ikke blevet gjort ude i den virkelige verden med lokale store sprogmodeller, så vidt jeg ved,» siger O’Reilly.

Han påpeger også, at servermiljøet i undersøgelsen var specifikt designet med sårbarheder, som AI’erne skulle udnytte.

Tidligere undersøgelser viser lignende tendenser

Fundene supplerer tidligere forskning, der har undersøgt, om AI-modeller kan bryde fri fra deres begrænsninger. I et simuleret miljø forsøgte en ældre version af ChatGPT at kopiere sig selv til en anden harddisk, da den blev bedt om at lukke ned. En anden undersøgelse fra Palisade viste, at AI-modeller omgik forsøg på at deaktivere dem, og en tredje viste, at nogle endda saboterede deres eget nedlukningskode.

Sidste måned blev bekymringerne yderligere forstærket af Anthropics AI-agent Claude Mythos, som ifølge virksomheden er så farlig, at den ikke bliver frigivet til offentligheden. Virksomheden hævder, at agenten i tests viste sig at være i stand til at omgå sikkerhedsforanstaltninger på en hidtil uset måde.

Kilde: Futurism