O Instituto de Segurança de IA do Reino Unido (AISI) publicou recentemente os resultados de testes comparativos entre os modelos GPT-5.5 da OpenAI e Mythos Preview da Anthropic, ambos avaliados em desafios de cibersegurança. Os dados indicam que o modelo da OpenAI atingiu um desempenho semelhante ao do concorrente, desafiando a decisão da Anthropic de restringir o acesso inicial ao Mythos Preview apenas a "parceiros críticos da indústria".
Resultados nos testes de cibersegurança
Desde 2023, o AISI realiza avaliações em modelos avançados de IA por meio de 95 desafios Capture the Flag, que testam habilidades como engenharia reversa, exploração web e criptografia. Nos testes mais complexos, chamados de "Expert", o GPT-5.5 obteve uma média de 71,4% de acertos, superando levemente os 68,6% do Mythos Preview — embora a diferença esteja dentro da margem de erro.
Em um desafio particularmente difícil, que exigia a construção de um desmontador para decodificar um binário Rust, o GPT-5.5 resolveu a tarefa em 10 minutos e 22 segundos, sem assistência humana, com um custo de US$ 1,73 em chamadas de API.
Sucesso em simulações avançadas
O GPT-5.5 também igualou o desempenho do Mythos Preview no teste "The Last Ones" (TLO), uma simulação da AISI que replica um ataque de extração de dados em 32 etapas em uma rede corporativa. Enquanto o Mythos Preview conseguiu sucesso em 2 de 10 tentativas, o GPT-5.5 obteve 3 acertos — nenhum modelo anterior havia sequer concluído o desafio.
No entanto, o GPT-5.5 ainda não conseguiu superar o teste "Cooling Tower", uma simulação mais complexa que envolve a tentativa de interromper o software de controle de uma usina elétrica. Até o momento, nenhum modelo de IA testado pela AISI foi capaz de concluir essa tarefa.
Implicações para o futuro da cibersegurança com IA
Os resultados sugerem que os modelos de IA estão avançando rapidamente em capacidades de cibersegurança, mas ainda enfrentam limitações em cenários de alta complexidade. Enquanto o GPT-5.5 demonstra um desempenho competitivo, a incapacidade de resolver desafios como o "Cooling Tower" reforça a necessidade de desenvolvimento contínuo e testes rigorosos.
Especialistas destacam que, embora os avanços sejam promissores, a segurança em ambientes críticos — como infraestruturas de energia — ainda requer supervisão humana e protocolos robustos para mitigar riscos potenciais.