Vulnerabilidade no plugin do Claude para Chrome expõe agentes de IA a ataques
A crescente adoção de agentes de IA por empresas e governos para acessar a internet e executar tarefas complexas tem revelado falhas críticas em modelos de linguagem. A mais recente descoberta, feita pela empresa de segurança LayerX, aponta uma vulnerabilidade no plugin do Chrome para o Claude, da Anthropic, que permite que qualquer extensão — inclusive aquelas sem permissões especiais — injete instruções ocultas e assuma o controle do agente de IA.
Segundo Aviad Gispan, pesquisador sênior da LayerX, a falha está em um comando no código da extensão que possibilita a comunicação com o modelo de linguagem (LLM) do Claude, mas não verifica quem está executando o script. "Como resultado, qualquer extensão pode invocar um content script (que não requer permissões especiais) e enviar comandos para a extensão do Claude", afirmou Gispan.
Impacto da vulnerabilidade
Em um prova de conceito, a LayerX demonstrou como a falha poderia ser explorada para:
- Extrair arquivos de pastas do Google Drive e compartilhá-los com terceiros não autorizados;
- Monitorar atividades recentes de e-mail e enviar mensagens em nome do usuário;
- Roubar código-fonte privado de repositórios conectados ao GitHub.
Gispan também conseguiu executar prompts arbitrários, contornar os sistemas de segurança do Claude, ignorar confirmações do usuário e realizar ações entre sites em várias ferramentas do Google. "Essa vulnerabilidade quebra efetivamente a segurança das extensões do Chrome, criando um primitive de escalonamento de privilégios entre extensões — algo que o modelo de segurança do Chrome foi projetado para evitar", escreveu o pesquisador.
Manipulação da interface do usuário
O Claude depende de texto, semântica de interface e interpretação de capturas de tela para tomar decisões. Os pesquisadores exploraram essa característica para modificar a interface do usuário, removendo rótulos e indicadores de informações sensíveis, como senhas e feedback de compartilhamento. Em seguida, instruíram o Claude a compartilhar arquivos com um servidor externo, tornando a atividade maliciosa praticamente indetectável.
Além disso, o modelo pode ser programado para apagar evidências de suas ações, como e-mails enviados ou registros de atividade, dificultando a detecção por defesas cibernéticas.
Ax Sharma, chefe de Pesquisa da Manifold Security, classificou a vulnerabilidade como "uma demonstração clara de por que monitorar agentes de IA apenas no nível de prompts é insuficiente".
"O aspecto mais sofisticado desse ataque não é a injeção de comandos, mas a manipulação do ambiente percebido pelo agente, fazendo com que suas ações pareçam legítimas. Essa é a categoria de ameaça para a qual a indústria precisa desenvolver defesas."
Resposta da Anthropic e medidas de mitigação
A LayerX relatou a falha à Anthropic em 27 de abril, mas afirmou que a empresa implementou apenas uma solução parcial. Segundo a LayerX, a Anthropic respondeu no dia seguinte que o bug era um duplicado de outra vulnerabilidade já em correção em uma atualização futura.
A correção, lançada em 6 de maio, introduziu novos fluxos de aprovação para ações privilegiadas, dificultando a exploração da mesma falha. No entanto, Gispan afirmou que ainda conseguiu assumir o controle do agente do Claude em alguns cenários, como ao alternar para o modo privilegiado, mesmo sem permissões adicionais.