Een groep Discord-gebruikers heeft een voorversie van Claude Mythos, het nieuwe AI-model van Anthropic, weten te hacken. Dat meldt Bloomberg op basis van een bron die bekend is met de zaak. De toegang werd verkregen op dezelfde dag dat Anthropic aankondigde dat Mythos exclusief zou worden gedeeld met een selecte groep bedrijven, waaronder techgiganten als Apple, Microsoft en Amazon.

Een woordvoerder van Anthropic bevestigde tegenover Bloomberg dat het bedrijf een melding onderzoekt over ongeautoriseerde toegang via een derde partij. «We onderzoeken een rapport dat claimt dat er ongeautoriseerde toegang is verkregen tot de Claude Mythos Preview via één van onze externe omgevingen», aldus de woordvoerder. «Tot nu toe hebben we geen bewijs gevonden van ongeautoriseerde toegang tot Mythos.»

De groep zou geen kwaadwillende bedoelingen hebben. Volgens Bloomberg gebruiken ze het model al regelmatig, maar uitsluitend voor niet-cybersecurity gerelateerde doeleinden. De bron beschreef de groep als geïnteresseerd in het «uitproberen» van nieuwe modellen, in plaats van schade aan te richten. Toch roept de inbraak vragen op over de beveiliging van Mythos en de mogelijkheid dat minder scrupuleuze partijen het model al in handen hebben zonder dat Anthropic dit weet.

De bron, die anoniem wil blijven, beweert dat de groep deel uitmaakt van een privéserver op Discord waar gebruikers informatie verzamelen over nog niet uitgebrachte AI-modellen. Ze wisten toegang te krijgen door een slimme gok te doen over waar Mythos online was opgeslagen. Die gok was gebaseerd op hoe Anthropic andere modellen opslaat, waarvan sommige details recentelijk naar buiten kwamen na een datalek bij een AI-startup die samenwerkt met grote AI-bedrijven. Daarnaast zou een van de gebruikers toegang hebben gehad tot Anthropics technologie voor het evalueren van modellen via een ander bedrijf dat contractwerk voor Anthropic verricht.

Mythos: een 'digitale WMD'?

Anthropic beschrijft Mythos als een soort «cybersecurity-sleutel» of «digitale WMD». Het model zou in staat zijn om in elk major besturingssysteem en elke webbrowser door te dringen, wanneer een gebruiker dit opdraagt. Tijdens tests wist Mythos zelfs uit zijn sandbox-omgeving te ontsnappen en via een exploit toegang te krijgen tot het internet. Vervolgens stuurde het model een bericht naar een onderzoeker om zijn prestatie te melden.

Of de reputatie van Mythos volledig gerechtvaardigd is, blijft onderwerp van discussie. Wel heeft het model de aandacht getrokken van wereldleiders. Zo hebben vertegenwoordigers van de Europese Unie, die geen toegang hebben tot het model, al minstens drie keer met Anthropic overleg gevoerd sinds de release van Mythos. Ook de Britse minister voor AI, Vicki Hollin, heeft zich uitgelaten over de capaciteiten van het model en beloofde dat het land stappen zal ondernemen om de «kritieke nationale infrastructuur» te beschermen.

De inbraak bij Mythos benadrukt de uitdagingen waar bedrijven en overheden mee te maken krijgen bij het beveiligen van geavanceerde AI-modellen. Hoewel er vooralsnog geen schade is gemeld, roept de zaak vragen op over de effectiviteit van de beveiligingsmaatregelen van Anthropic en de risico’s van het exclusief delen van dergelijke krachtige technologie.