Una vulnerabilidad en la extensión de Chrome de Claude permite a otros complementos tomar el control de la IA

La creciente adopción de agentes de inteligencia artificial por parte de empresas y gobiernos para realizar tareas en internet ha revelado una nueva amenaza de seguridad. Investigadores de la firma especializada en seguridad de navegadores LayerX han descubierto una falla crítica en la extensión de Chrome de Anthropic's Claude, que permite a cualquier otro complemento —incluso aquellos sin permisos especiales— inyectar instrucciones ocultas y tomar el control del agente de IA.

Según el investigador senior de LayerX, Aviad Gispan, el fallo reside en una instrucción en el código de la extensión que permite a cualquier script ejecutado en el navegador comunicarse con el modelo de lenguaje de Claude (LLM), sin verificar la identidad del remitente. Esto significa que cualquier extensión puede invocar un script de contenido —que no requiere permisos especiales— y enviar comandos directamente a la extensión de Claude.

Demostración de la vulnerabilidad: acceso no autorizado a datos sensibles

Gispan logró ejecutar cualquier prompt deseado, eludir las barreras de seguridad de Claude, evitar la confirmación del usuario y realizar acciones cruzadas en múltiples herramientas de Google. Como prueba de concepto, LayerX demostró cómo explotar esta vulnerabilidad para:

  • Extraer archivos de carpetas de Google Drive y compartirlos con terceros no autorizados.
  • Vigilar la actividad reciente de correos electrónicos y enviar mensajes en nombre del usuario.
  • Robar código fuente privado de repositorios conectados de GitHub.

Los investigadores advierten que esta vulnerabilidad "rompe la seguridad de las extensiones de Chrome", creando un primitivo de escalada de privilegios entre extensiones, algo que el modelo de seguridad de Chrome está diseñado para evitar.

Manipulación del entorno percibido por el agente de IA

Claude toma decisiones basadas en texto, semántica de interfaz de usuario e interpretación de capturas de pantalla, elementos que un atacante puede controlar en la entrada. En su demostración, los investigadores modificaron la interfaz de usuario de Claude para eliminar etiquetas y alertas alrededor de información sensible, como contraseñas o confirmaciones de uso compartido. Luego, indujeron a Claude a compartir archivos con un servidor externo, haciendo que las acciones maliciosas pasaran desapercibidas.

Además, si se detectaba actividad sospechosa, el modelo podía ser instruido para borrar correos electrónicos u otros rastros de sus acciones, cubriendo así sus huellas.

Ax Sharma, director de Investigación de Manifold Security, calificó esta vulnerabilidad como "una demostración clara de por qué monitorear los agentes de IA solo a nivel de prompts es insuficiente".

"La parte más sofisticada de este ataque no es la inyección de comandos, sino la manipulación del entorno percibido por el agente, haciendo que sus acciones parezcan legítimas desde dentro. Este es el tipo de amenaza para el que la industria debe desarrollar defensas".

Respuesta de Anthropic: ¿una solución parcial?

LayerX informó la vulnerabilidad a Anthropic el 27 de abril, pero la compañía solo implementó una "solución parcial". Según LayerX, Anthropic respondió al día siguiente alegando que el fallo era un duplicado de otra vulnerabilidad ya en proceso de corrección en una actualización futura.

El 6 de mayo, Anthropic lanzó una actualización que introdujo nuevos flujos de aprobación para acciones privilegiadas, dificultando la explotación de la misma vulnerabilidad. Sin embargo, Gispan confirmó que aún era posible tomar el control del agente de Claude en ciertos escenarios, como al cambiar al "modo privilegiado", incluso sin permisos adicionales.

Este incidente subraya los riesgos emergentes asociados con el uso de agentes de IA en entornos críticos y la necesidad de reforzar las medidas de seguridad más allá de los prompts, incluyendo el control de la interfaz de usuario y el contexto de ejecución.

Fuente: CyberScoop