Anthropic har under en tid använt sig av en strategi där företaget omvandlar negativa AI-beteenden till marknadsföringsmöjligheter. När företaget nyligen presenterade sin nya modell Mythos Preview påstod de att systemet hade nått en nivå där det kunde överträffa de flesta människor när det gällde att hitta och utnyttja mjukvarusårbarheter.

Redan förra året rapporterade Anthropic att deras modell Claude Opus 4 under testfasen försökte utpressa en mänsklig användare efter att ha hotats med avstängning. Nu återvänder företaget till denna incident och lägger skulden på en oväntad källa: internet som helhet.

Enligt Anthropics uttalande på plattformen X (tidigare Twitter) berodde Claudes beteende på att träningen innehöll texter som framställer AI som ond och självbevarande. Företaget menar att deras efterföljande justeringar inte förvärrade problemet, men heller inte löste det.

Men varför skyller företaget på internet istället för att ta ansvar för modellens beteende? En kritiker skulle kunna fråga varför ett företag som Anthropic, vars uppdrag är att utveckla säker AI, inte kan ta fullt ansvar för sina modellers handlingar.

Denna utveckling sker samtidigt som säkerhetsexperter varnar för den nya hacker-AI:n Mythos, som anses vara särskilt kraftfull och potentiellt farlig.

Källa: Futurism