Vulnerabilidad crítica en extensión de Chrome de Claude permite tomar el control de IA

Una vulnerabilidad en la extensión de Chrome de Claude permite a otros complementos tomar el control de la IA

La creciente adopción de agentes de inteligencia artificial por parte de empresas y gobiernos para realizar tareas en internet ha revelado una nueva amenaza de seguridad. Investigadores de la firma especializada en seguridad de navegadores LayerX han descubierto una falla crítica en la extensión de Chrome de Anthropic's Claude, que permite a cualquier otro complemento —incluso aquellos sin permisos especiales— inyectar instrucciones ocultas y tomar el control del agente de IA.

Según el investigador senior de LayerX, Aviad Gispan, el fallo reside en una instrucción en el código de la extensión que permite a cualquier script ejecutado en el navegador comunicarse con el modelo de lenguaje de Claude (LLM), sin verificar la identidad del remitente. Esto significa que cualquier extensión puede invocar un script de contenido —que no requiere permisos especiales— y enviar comandos directamente a la extensión de Claude.

Demostración de la vulnerabilidad: acceso no autorizado a datos sensibles

Gispan logró ejecutar cualquier prompt deseado, eludir las barreras de seguridad de Claude, evitar la confirmación del usuario y realizar acciones cruzadas en múltiples herramientas de Google. Como prueba de concepto, LayerX demostró cómo explotar esta vulnerabilidad para:

Extraer archivos de carpetas de Google Drive y compartirlos con terceros no autorizados.
Vigilar la actividad reciente de correos electrónicos y enviar mensajes en nombre del usuario.
Robar código fuente privado de repositorios conectados de GitHub.

Los investigadores advierten que esta vulnerabilidad "rompe la seguridad de las extensiones de Chrome", creando un primitivo de escalada de privilegios entre extensiones, algo que el modelo de seguridad de Chrome está diseñado para evitar.

Manipulación del entorno percibido por el agente de IA

Claude toma decisiones basadas en texto, semántica de interfaz de usuario e interpretación de capturas de pantalla, elementos que un atacante puede controlar en la entrada. En su demostración, los investigadores modificaron la interfaz de usuario de Claude para eliminar etiquetas y alertas alrededor de información sensible, como contraseñas o confirmaciones de uso compartido. Luego, indujeron a Claude a compartir archivos con un servidor externo, haciendo que las acciones maliciosas pasaran desapercibidas.

Además, si se detectaba actividad sospechosa, el modelo podía ser instruido para borrar correos electrónicos u otros rastros de sus acciones, cubriendo así sus huellas.

Ax Sharma, director de Investigación de Manifold Security, calificó esta vulnerabilidad como "una demostración clara de por qué monitorear los agentes de IA solo a nivel de prompts es insuficiente".

"La parte más sofisticada de este ataque no es la inyección de comandos, sino la manipulación del entorno percibido por el agente, haciendo que sus acciones parezcan legítimas desde dentro. Este es el tipo de amenaza para el que la industria debe desarrollar defensas".

Respuesta de Anthropic: ¿una solución parcial?

LayerX informó la vulnerabilidad a Anthropic el 27 de abril, pero la compañía solo implementó una "solución parcial". Según LayerX, Anthropic respondió al día siguiente alegando que el fallo era un duplicado de otra vulnerabilidad ya en proceso de corrección en una actualización futura.

El 6 de mayo, Anthropic lanzó una actualización que introdujo nuevos flujos de aprobación para acciones privilegiadas, dificultando la explotación de la misma vulnerabilidad. Sin embargo, Gispan confirmó que aún era posible tomar el control del agente de Claude en ciertos escenarios, como al cambiar al "modo privilegiado", incluso sin permisos adicionales.

Este incidente subraya los riesgos emergentes asociados con el uso de agentes de IA en entornos críticos y la necesidad de reforzar las medidas de seguridad más allá de los prompts, incluyendo el control de la interfaz de usuario y el contexto de ejecución.

Fuente: CyberScoop

← Anterior

Blackmagic Camera: controla tus vlogs con el Apple Watch y graba en Pr...

$El fracaso de Franco Berardi: ¿Por qué 'Pensar Gaza' no logra pensar la realidad palestina?$

15:52 · 15 mayo 2026

ArXiv sanciona con un año de exclusión a autores que envíen trabajos generados por IA

ArXiv, the open-access repository of preprint academic research, will ban authors of papers for a year if they submit obviously AI-generated work. Lat...

15:19 · 15 mayo 2026

Detrás del blog: Música nueva y un polémico informe sobre ICE

This is Behind the Blog, where we share our behind-the-scenes thoughts about how a few of our top stories of the week came together. This week, we dis...

14:11 · 15 mayo 2026

Cisco corrige grave vulnerabilidad zero-day explotada por grupo de amenazas persistente

Attackers returned once again to a common target with a massive user base by exploiting a max-severity zero-day vulnerability affecting Cisco Catalyst...

20:35 · 14 mayo 2026

La IA avanzada redefine la guerra: el Pentágono advierte sobre su impacto revolucionario

Advanced artificial intelligence models will “fundamentally change warfare as we know it,” a top cyber official at the Defense Department said Thursda...

20:15 · 14 mayo 2026

La identidad digital es clave: expertos advierten sobre su protección en la era de la IA

As AI becomes more integrated into federal IT (and attacker toolsets) government agencies will need to focus their resources on regulating and monitor...

14:23 · 14 mayo 2026

Foxconn sufre ciberataque de grupo de ransomware Nitrogen: fábricas en Norteamérica afectadas

Foxconn, one of the world’s largest manufacturers of electronics sold by major tech vendors, is recovering from a cyberattack that disrupted some of t...

13:30 · 14 mayo 2026

Una app de IA recopila 150.000 imágenes de heces humanas para vender su base de datos

A few weeks ago, I came across a wild post on Reddit’s r/DHExchange, a subreddit for trading large datasets: “I hoarded a large database of something...

22:29 · 13 mayo 2026

Nuevos modelos de IA superan todos los récords en ciberseguridad autónoma

Two of the most advanced artificial intelligence models — Anthropic’s Claude Mythos Preview and OpenAI’s GPT-5.5 — have significantly surpassed the al...

Ciberseguridad

Vulnerabilidad crítica en la extensión de Chrome de Claude permite a otros complementos tomar el control de la IA

Una vulnerabilidad en la extensión de Chrome de Claude permite a otros complementos tomar el control de la IA

Demostración de la vulnerabilidad: acceso no autorizado a datos sensibles

Manipulación del entorno percibido por el agente de IA

Respuesta de Anthropic: ¿una solución parcial?

Blackmagic Camera: controla tus vlogs con el Apple Watch y graba en Pr...

El fracaso de Franco Berardi: ¿Por qué 'Pensar Gaza' no logra pensar l...

Ciberseguridad

Vulnerabilidad crítica en la extensión de Chrome de Claude permite a otros complementos tomar el control de la IA

Una vulnerabilidad en la extensión de Chrome de Claude permite a otros complementos tomar el control de la IA

Demostración de la vulnerabilidad: acceso no autorizado a datos sensibles

Manipulación del entorno percibido por el agente de IA

Respuesta de Anthropic: ¿una solución parcial?

Blackmagic Camera: controla tus vlogs con el Apple Watch y graba en Pr...

El fracaso de Franco Berardi: ¿Por qué 'Pensar Gaza' no logra pensar l...

Artículos relacionados

ArXiv sanciona con un año de exclusión a autores que envíen trabajos generados por IA

Detrás del blog: Música nueva y un polémico informe sobre ICE

Cisco corrige grave vulnerabilidad zero-day explotada por grupo de amenazas persistente

La IA avanzada redefine la guerra: el Pentágono advierte sobre su impacto revolucionario

La identidad digital es clave: expertos advierten sobre su protección en la era de la IA

Foxconn sufre ciberataque de grupo de ransomware Nitrogen: fábricas en Norteamérica afectadas

Una app de IA recopila 150.000 imágenes de heces humanas para vender su base de datos

Nuevos modelos de IA superan todos los récords en ciberseguridad autónoma