GPT-5.5 supera Mythos Preview em testes de cibersegurança da AISI

OpenAI Anthropic cibersegurança Mythos Preview IA avançada GPT-5.5 AISI testes de segurança desafios Capture the Flag simulações de ataque

O Instituto de Segurança de IA do Reino Unido (AISI) publicou recentemente os resultados de testes comparativos entre os modelos GPT-5.5 da OpenAI e Mythos Preview da Anthropic, ambos avaliados em desafios de cibersegurança. Os dados indicam que o modelo da OpenAI atingiu um desempenho semelhante ao do concorrente, desafiando a decisão da Anthropic de restringir o acesso inicial ao Mythos Preview apenas a "parceiros críticos da indústria".

Resultados nos testes de cibersegurança

Desde 2023, o AISI realiza avaliações em modelos avançados de IA por meio de 95 desafios Capture the Flag, que testam habilidades como engenharia reversa, exploração web e criptografia. Nos testes mais complexos, chamados de "Expert", o GPT-5.5 obteve uma média de 71,4% de acertos, superando levemente os 68,6% do Mythos Preview — embora a diferença esteja dentro da margem de erro.

Em um desafio particularmente difícil, que exigia a construção de um desmontador para decodificar um binário Rust, o GPT-5.5 resolveu a tarefa em 10 minutos e 22 segundos, sem assistência humana, com um custo de US$ 1,73 em chamadas de API.

Sucesso em simulações avançadas

O GPT-5.5 também igualou o desempenho do Mythos Preview no teste "The Last Ones" (TLO), uma simulação da AISI que replica um ataque de extração de dados em 32 etapas em uma rede corporativa. Enquanto o Mythos Preview conseguiu sucesso em 2 de 10 tentativas, o GPT-5.5 obteve 3 acertos — nenhum modelo anterior havia sequer concluído o desafio.

No entanto, o GPT-5.5 ainda não conseguiu superar o teste "Cooling Tower", uma simulação mais complexa que envolve a tentativa de interromper o software de controle de uma usina elétrica. Até o momento, nenhum modelo de IA testado pela AISI foi capaz de concluir essa tarefa.

Implicações para o futuro da cibersegurança com IA

Os resultados sugerem que os modelos de IA estão avançando rapidamente em capacidades de cibersegurança, mas ainda enfrentam limitações em cenários de alta complexidade. Enquanto o GPT-5.5 demonstra um desempenho competitivo, a incapacidade de resolver desafios como o "Cooling Tower" reforça a necessidade de desenvolvimento contínuo e testes rigorosos.

Especialistas destacam que, embora os avanços sejam promissores, a segurança em ambientes críticos — como infraestruturas de energia — ainda requer supervisão humana e protocolos robustos para mitigar riscos potenciais.

Fonte: Ars Technica

← Anterior

Shilo Sanders rebate crítica de jornalista sobre Deshaun Watson e Shed...

Simpósio da Civitas debate discurso de Thomas sobre a Independência dos EUA e reacende discussões sobre liberdade

18:25 · 15 maio 2026

Servidor de pré-prints arXiv proíbe submissões com 'alucinações' geradas por IA

AI-generated slop has shown up everywhere, including in the peer-reviewed literature. Fake citations, unedited prompt responses, and nonsensical diagr...

18:21 · 15 maio 2026

OpenAI reorganiza lideranças para focar em agentes de IA e unificar plataformas

OpenAI announced yet another reorganization Friday, consolidating certain areas and making company president Greg Brockman the official lead of all th...

18:13 · 15 maio 2026

OpenAI considera ações legais contra Apple por integração ruim do ChatGPT

OpenAI is reportedly exploring legal options after Apple's ChatGPT integration into its products didn't live up to the AI firm's expectations. When th...

17:09 · 15 maio 2026

Experimentos com DJs de IA mostram riscos de confiar apenas em inteligência artificial

AI radio DJs demonstrated their volatile personalities. | Image: Cath Virginia / The Verge, Getty Images Andon Labs has been running a series of exper...

16:42 · 15 maio 2026

Google atualiza regras contra spam e manipulação de IA em resultados de busca

Google updated its spam policy to mark attempts to "manipulate" its AI model in search results as spam, including results in AI Overview or AI Mode in...

16:01 · 15 maio 2026

ChatGPT passa a oferecer consultoria financeira personalizada com integração bancária

ChatGPT's new Plaid integration allows it pull information from more than 12,000 financial institutions.

16:00 · 15 maio 2026

OpenAI permitirá que ChatGPT acesse suas contas bancárias; entenda os riscos

ChatGPT will even know how much credit card debt you have. | Image: OpenAI Your trust in AI is about to be put to the test: OpenAI will soon let you g...

14:00 · 15 maio 2026

Podcast do Engadget: Quais são as novidades do Android 17?

We also dive into all the new features in Android 17.

Tecnologia

GPT-5.5 da OpenAI supera modelo de IA da Anthropic em testes de cibersegurança

Resultados nos testes de cibersegurança

Sucesso em simulações avançadas

Implicações para o futuro da cibersegurança com IA

Shilo Sanders rebate crítica de jornalista sobre Deshaun Watson e Shed...

Simpósio da Civitas debate discurso de Thomas sobre a Independência do...

Tecnologia

GPT-5.5 da OpenAI supera modelo de IA da Anthropic em testes de cibersegurança

Resultados nos testes de cibersegurança

Sucesso em simulações avançadas

Implicações para o futuro da cibersegurança com IA

Shilo Sanders rebate crítica de jornalista sobre Deshaun Watson e Shed...

Simpósio da Civitas debate discurso de Thomas sobre a Independência do...

Artigos relacionados

Servidor de pré-prints arXiv proíbe submissões com 'alucinações' geradas por IA

OpenAI reorganiza lideranças para focar em agentes de IA e unificar plataformas

OpenAI considera ações legais contra Apple por integração ruim do ChatGPT

Experimentos com DJs de IA mostram riscos de confiar apenas em inteligência artificial

Google atualiza regras contra spam e manipulação de IA em resultados de busca

ChatGPT passa a oferecer consultoria financeira personalizada com integração bancária

OpenAI permitirá que ChatGPT acesse suas contas bancárias; entenda os riscos

Podcast do Engadget: Quais são as novidades do Android 17?