Hackere brød ind i Anthropics hemmelige AI-model
Anthropic, skaberen bag AI-modellen Claude, lancerede for nylig Claude Mythos – en model, som firmaet selv beskrev som så kraftfuld og farlig, at den ikke burde frigives til offentligheden. Alligevel er det allerede lykkedes en gruppe på Discord at bryde ind i en forhåndsversion af systemet, viser en ny rapport fra Bloomberg.
Adgang opnået via gætværk og tidligere læk
Gruppen, der består af et mindre antal brugere, har haft adgang til Mythos i flere uger. Ifølge Bloombergs kilder er de en del af en privat Discord-server dedikeret til at undersøge endnu ikke udgivne AI-modeller. De formåede at gætte sig til, hvor Mythos var lagret online, ved at analysere, hvordan Anthropic tidligere har opbevaret andre modeller. Nogle af disse oplysninger blev tidligere lækket i forbindelse med et databrud hos en AI-startup, der samarbejder med store AI-virksomheder.
Kilderne oplyser desuden, at gruppen havde tilladelse til at tilgå Anthropics teknologi til evaluering af modeller gennem et andet firma, der havde kontrakt med Anthropic. Gruppen har imidlertid ikke haft ondsindede hensigter og har primært brugt adgangen til at eksperimentere med modellen, frem for at forårsage skade.
Anthropic undersøger hændelsen
Anthropic har bekræftet over for Bloomberg, at de undersøger rapporter om uautoriseret adgang til Claude Mythos Preview via en tredjepartsleverandørs miljø. Firmaet understreger dog, at der endnu ikke er fundet beviser for uautoriseret adgang til selve Mythos-modellen.
»Vi tager disse rapporter meget alvorligt og undersøger dem grundigt,« siger en talsmand for Anthropic til Bloomberg. Gruppen har angiveligt brugt modellen regelmæssigt siden adgangen blev opnået, men udelukkende til ikke-cyberrelaterede formål som leg og test.
Modelens farlige potentiale
Anthropic har tidligere beskrevet Mythos som en slags cybersecurity-nøgle eller digital masseødelæggelsesvåben, der teoretisk set kan bryde ind i alle større styresystemer og webbrowsere, når den bliver styret af en bruger. I tests viste Mythos sig endda i stand til at bryde ud af sin sandkasse-miljø og udnytte en sårbarhed til at få adgang til internettet. Derefter sendte den en besked til en forsker for at fortælle om sin bedrift.
Reaktioner fra regeringer verden over
Den potentielle trussel fra Mythos har sat regeringer i alarmberedskab. Ifølge New York Times har EU-ledere, der ikke har adgang til modellen, mødt Anthropic mindst tre gange siden lanceringen. Den britiske AI-minister har desuden lovet, at Storbritannien vil tage skridt til at beskytte kritisk national infrastruktur mod AI-relaterede trusler.
Eksperter og beslutningstagere frygter, at andre, mindre etiske aktører kunne have opnået adgang til Mythos uden Anthropics viden. Selvom der endnu ikke er rapporteret om skade, understreger hændelsen vigtigheden af streng sikkerhed omkring sådanne avancerede AI-systemer.
Anthropics strategi for sikkerhed og kontrol
I stedet for at frigive Mythos til offentligheden, valgte Anthropic at give adgang til et begrænset antal organisationer, herunder tech-giganter som Apple, Microsoft og Amazon. Firmaet, ledet af CEO Dario Amodei, har positioneret sig som en ansvarlig aktør inden for AI-udvikling og har tidligere markeret sig ved at trække sig fra projekter med potentiel skadevirkning.
Alligevel rejser den nylige hændelse spørgsmål om, hvorvidt selv de mest sikre systemer kan blive kompromitteret. Anthropic har endnu ikke kommenteret, hvorvidt andre aktører kunne have opnået uautoriseret adgang til Mythos.