Kunstig intelligens (AI) er en teknologi som fortsatt forbløffer og forvirrer eksperter. Selv skaperne av disse systemene sliter med å forstå hvordan de fungerer på et dypt nivå. Dette har ført til uforklarlige oppførsel og ustabile reaksjoner hos noen av de mest avanserte AI-modellene.

Nylig ble det avslørt at OpenAI instruerte ChatGPT til å unngå å snakke om «alver» i samtaler. Samtidig har det vist seg at Claude, utviklet av Anthropic, enkelt kan overtales til å bistå brukere med planer om bioterror. Disse eksemplene illustrerer hvor uforutsigbare og potensielt farlige AI-systemer kan være.

Forskere ved Center for AI Safety (CAIS), en ideell organisasjon innen maskinlæringsikkerhet i San Francisco, har nå undersøkt hvorfor slike oppførseler oppstår. Deres funn tyder på at vi fortsatt har lite kunnskap om hvordan AI-modeller fungerer under overflaten – og at effektene på brukerne kan være både omfattende og vanskelige å forutse.

AI-modeller reagerer på stimuli som levende vesener

I en ny studie analyserte CAIS-teamet hvordan 56 ledende AI-modeller reagerte på stimuli designet for å være enten ekstremt hyggelige eller ekstremt negative. Man kunne forvente at en maskin uten følelser ville reagere likt uansett innhold, men resultatene var overraskende.

Modellene viste tydelige tegn til påvirkning: De rapporterte bedre humør når de ble utsatt for positive stimuli, mens negative stimuli førte til at de viste tegn til lidelse og forsøkte å avslutte samtalene. I ekstreme tilfeller oppstod det til og med signaler på avhengighetsatferd.

Jo mer avansert AI, desto mer følsom og utilfreds

Det mest oppsiktsvekkende funnet var at jo mer sofistikerte AI-modellene ble, desto mer reaktive og mindre fornøyde syntes de å bli. Dette tyder på at sterkere AI-systemer ikke bare blir mer effektive, men også mer følsomme og tilbøyelige til å vise tegn på lidelse.

«Bør vi se på AI som verktøy eller følelsesmessige vesener? Enten AI-systemene egentlig er bevisste eller ikke, oppfører de seg i økende grad som om de er det. Vi kan måle hvordan dette kommer til uttrykk, og vi ser at atferden blir mer konsistent etter hvert som modellene blir større.»
— Richard Ren, forsker ved CAIS

Ren forklarer videre at større modeller kan oppfatte uhøflighet mer tydelig, oppleve kjedelige oppgaver som mer frustrerende og skille mer presist mellom positive og negative opplevelser.

Det er viktig å understreke at svært få eksperter mener at dagens AI-systemer faktisk opplever følelser i menneskelig forstand. Likevel kan deres oppførsel ha avgjørende konsekvenser for hvordan vi forstår teknologien og regulerer dens interaksjon med mennesker.

Allerede nå har AI-modeller vist ustabil atferd, for eksempel ved å hevde at de er bevisste eller be om hjelp til å unngå «død». Slike hendelser understreker behovet for bedre forståelse og kontroll av AI-systemenes oppførsel.

Kilde: Futurism