AI supera ogni benchmark: i nuovi modelli rivoluzionano la cybersecurity autonoma

AI cybersecurity GPT-5.5 vulnerabilità software Palo Alto Networks Autonomia AI Claude Mythos Preview AISI Cyber range Intelligenza artificiale avanzata

I nuovi modelli AI raggiungono livelli senza precedenti

Due dei più avanzati modelli di intelligenza artificiale — Claude Mythos Preview di Anthropic e GPT-5.5 di OpenAI — hanno superato ogni aspettativa nelle capacità di cybersecurity autonoma. Secondo i risultati pubblicati mercoledì dall'AI Security Institute (AISI) del Regno Unito e da Palo Alto Networks, questi sistemi hanno accelerato in modo significativo il ritmo con cui completano compiti cyber autonomi.

Un balzo in avanti rispetto alle previsioni

L'AISI, che valuta i modelli AI di frontiera per conto del governo britannico, ha rilevato che entrambi i modelli hanno superato di gran lunga i trend di crescita registrati fin dalla fine del 2024. In precedenza, l'istituto aveva stimato che l'affidabilità dell'80% dei modelli di frontiera nel completare compiti cyber autonomi raddoppiava ogni cinque mesi. Ora, Mythos Preview e GPT-5.5 hanno superato qualsiasi previsione, raggiungendo livelli mai visti prima.

«Le capacità autonome di cyber e software dei modelli di frontiera stanno avanzando rapidamente: la durata dei compiti cyber che questi modelli possono completare autonomamente raddoppia nell'arco di mesi, non di anni», ha dichiarato l'AISI.

Le prove del salto qualitativo

La conferma più evidente del salto di capacità è arrivata dai cyber ranges dell'AISI, simulazioni strutturate di attacchi multi-fase contro reti aziendali indifese. Un nuovo checkpoint di Claude Mythos Preview è diventato il primo modello a completare entrambi i range di test dell'istituto:

Ha risolto «The Last Ones», un attacco simulato a una rete aziendale di 32 passaggi, in 6 delle 10 prove;
Ha completato «Cooling Tower», precedentemente irrisolto da qualsiasi modello, in 3 delle 10 prove.

GPT-5.5 ha invece risolto «The Last Ones» in 3 delle 10 prove.

Conferme anche da Palo Alto Networks

Anche Palo Alto Networks ha registrato risultati simili nei propri test. L'azienda ha iniziato a testare Claude Mythos ad aprile come partner di lancio per Anthropic’s Project Glasswing, e successivamente ha valutato anche Claude Opus 4.7 e GPT-5.5-Cyber nell'ambito del programma OpenAI’s Trusted Access for Cyber.

«I modelli più recenti sono straordinariamente abili nel trovare vulnerabilità e trasformarle in percorsi di exploit critici in tempo quasi reale», ha dichiarato Palo Alto Networks. L'azienda ha inoltre rilasciato 26 CVE (Common Vulnerabilities and Exposures) relativi a 75 problemi di sicurezza, un volume ben superiore alla media mensile di 5 CVE tipica del settore. Tutte le vulnerabilità critiche nei prodotti SaaS sono state risolte, con patch disponibili anche per i prodotti gestiti dai clienti.

Limiti e incertezze

L'AISI ha sottolineato i limiti dei dati raccolti: le stime si basano su un numero relativamente piccolo di modelli, e i compiti più difficili del test hanno meno dati di confronto umani. Tuttavia, l'istituto ha affermato che il trend complessivo rimane solido: escludere un singolo modello dall'analisi non modifica significativamente i risultati, spostando il tempo di raddoppio di meno di un mese in entrambe le direzioni.

Studi separati condotti da METR, un'organizzazione no-profit che monitora la velocità con cui l'AI gestisce compiti software, confermano questa accelerazione senza precedenti.

Fonte: CyberScoop

← Precedente

Jets ingaggiano Tim Patrick, veterano ricevitore per rafforzare l'atta...

Kash Patel sotto torchio per abitudini alcoliche: l'esplosivo confronto al Senato

15:52 · 15 maggio 2026

ArXiv vieta ai ricercatori per un anno se pubblicano lavori generati da AI

ArXiv, the open-access repository of preprint academic research, will ban authors of papers for a year if they submit obviously AI-generated work. Lat...

15:19 · 15 maggio 2026

Dietro le quinte: novità musicali e un errore clamoroso

This is Behind the Blog, where we share our behind-the-scenes thoughts about how a few of our top stories of the week came together. This week, we dis...

14:11 · 15 maggio 2026

Nuova vulnerabilità zero-day di Cisco sfruttata attivamente: gruppo di minaccia persistente colpisce SD-WAN

Attackers returned once again to a common target with a massive user base by exploiting a max-severity zero-day vulnerability affecting Cisco Catalyst...

13:00 · 15 maggio 2026

Mayo Clinic adotta l’IA per registrare le conversazioni in pronto soccorso

Mayo Clinic, the massive U.S. hospital network, is using what it describes as “Ambient Listening” to record patient interactions with nurses, includin...

20:35 · 14 maggio 2026

L'IA avanzata rivoluzionerà la guerra, avverte un alto ufficiale del Pentagono

Advanced artificial intelligence models will “fundamentally change warfare as we know it,” a top cyber official at the Defense Department said Thursda...

20:15 · 14 maggio 2026

Cybersecurity: l'identità digitale diventa cruciale nell'era dell'IA secondo la Casa Bianca

As AI becomes more integrated into federal IT (and attacker toolsets) government agencies will need to focus their resources on regulating and monitor...

14:23 · 14 maggio 2026

Foxconn subisce un attacco informatico: ransomware Nitrogen colpisce stabilimenti nordamericani

Foxconn, one of the world’s largest manufacturers of electronics sold by major tech vendors, is recovering from a cyberattack that disrupted some of t...

13:30 · 14 maggio 2026

App di analisi delle feci con IA: in vendita un database con 150mila immagini di utenti

A few weeks ago, I came across a wild post on Reddit’s r/DHExchange, a subreddit for trading large datasets: “I hoarded a large database of something...

Cybersicurezza

AI supera ogni benchmark: i nuovi modelli autonomi rivoluzionano la cybersecurity

I nuovi modelli AI raggiungono livelli senza precedenti