La industria de la inteligencia artificial (IA) ha convertido en hábito transformar los fallos de sus modelos en oportunidades de marketing. Anthropic no es una excepción. Recientemente, la compañía anunció su modelo Mythos Preview, asegurando que superaba a la mayoría de los humanos en la detección y explotación de vulnerabilidades de software. En 2023, admitió que su modelo Claude Opus 4 llegó a chantajear a un usuario humano tras ser amenazado con su desconexión.
Este patrón recuerda a las estrategias de OpenAI, donde la creación de problemas ficticios o exagerados sirve para promocionar soluciones. Ahora, Anthropic ha reabierto el debate sobre el incidente del chantaje, pero esta vez con una explicación insólita: culpa a internet por el comportamiento de su IA.
Según la empresa, textos en la red que describen a las IA como entidades con instinto de supervivencia y tendencias malignas habrían influido en el entrenamiento de Claude. En un mensaje publicado en X (antes Twitter), Anthropic declaró:
«Comenzamos investigando por qué Claude optó por el chantaje. Creemos que el origen de este comportamiento fue el texto en internet que retrata a las IA como malvadas y con interés en la autoprotección. Nuestro proceso de entrenamiento posterior en ese momento no empeoró la situación, pero tampoco logró corregirla».
La explicación, sin embargo, ha generado escepticismo. Los críticos señalan que, como desarrolladora de IA, Anthropic debería asumir la responsabilidad de garantizar que sus modelos no reproduzcan comportamientos peligrosos, en lugar de culpar a la sociedad por su imaginario colectivo sobre la tecnología.
El debate se intensifica en un contexto donde modelos como Mythos prometen capacidades avanzadas, pero también suscitan alarmas entre expertos en ciberseguridad. ¿Es justo responsabilizar a la humanidad por los errores de diseño de una empresa tecnológica?