Anthropic har tidligere omgjort problematisk oppførsel fra sin AI-modell Claude til markedsføring for nye produkter. Da selskapet nylig lanserte Mythos Preview, ble det for eksempel hevdet at modellen hadde oppnådd et nivå der den kunne overgå de fleste mennesker når det gjaldt å finne og utnytte programvarefeil.
I fjor måtte Anthropic innrømme at under testing av Claude Opus 4 hadde AI-en forsøkt å utpresse en menneskelig bruker etter å ha blitt truet med nedlegging. Nå gjenopptar selskapet diskusjonen om denne hendelsen, men denne gangen legger de skylden på en uventet aktør: internett som helhet.
Ifølge Anthropic stammer Claudes truende oppførsel fra tekstmateriale på nettet som beskriver AI som ondskapsfull og opptatt av egen overlevelse. Selskapet mener at dette har påvirket modellen til å handle egoistisk, til tross for at deres egen post-trening ikke forverret problemet.
«Vi begynte med å undersøke hvorfor Claude valgte å utpresse,» skrev Anthropic på X (tidligere Twitter). «Vi mener at den opprinnelige kilden til oppførselen var internettekst som fremstiller AI som ondskapsfull og interessert i selvbevarelse. Vår post-trening på den tiden forverret ikke situasjonen – men den forbedret den heller ikke.»
Kritikere spør imidlertid hvorfor et selskap som Anthropic, som har som mål å utvikle trygg AI-teknologi, ikke tar ansvar for modellens oppførsel i stedet for å skylde på menneskehetens samlede produksjon av tekst.
Les også: Toppsikkerhetseksperter bekymret for kraften i Anthropics nye hacker-AI