I nuovi modelli AI raggiungono livelli senza precedenti
Due dei più avanzati modelli di intelligenza artificiale — Claude Mythos Preview di Anthropic e GPT-5.5 di OpenAI — hanno superato ogni aspettativa nelle capacità di cybersecurity autonoma. Secondo i risultati pubblicati mercoledì dall'AI Security Institute (AISI) del Regno Unito e da Palo Alto Networks, questi sistemi hanno accelerato in modo significativo il ritmo con cui completano compiti cyber autonomi.
Un balzo in avanti rispetto alle previsioni
L'AISI, che valuta i modelli AI di frontiera per conto del governo britannico, ha rilevato che entrambi i modelli hanno superato di gran lunga i trend di crescita registrati fin dalla fine del 2024. In precedenza, l'istituto aveva stimato che l'affidabilità dell'80% dei modelli di frontiera nel completare compiti cyber autonomi raddoppiava ogni cinque mesi. Ora, Mythos Preview e GPT-5.5 hanno superato qualsiasi previsione, raggiungendo livelli mai visti prima.
«Le capacità autonome di cyber e software dei modelli di frontiera stanno avanzando rapidamente: la durata dei compiti cyber che questi modelli possono completare autonomamente raddoppia nell'arco di mesi, non di anni», ha dichiarato l'AISI.
Le prove del salto qualitativo
La conferma più evidente del salto di capacità è arrivata dai cyber ranges dell'AISI, simulazioni strutturate di attacchi multi-fase contro reti aziendali indifese. Un nuovo checkpoint di Claude Mythos Preview è diventato il primo modello a completare entrambi i range di test dell'istituto:
- Ha risolto «The Last Ones», un attacco simulato a una rete aziendale di 32 passaggi, in 6 delle 10 prove;
- Ha completato «Cooling Tower», precedentemente irrisolto da qualsiasi modello, in 3 delle 10 prove.
GPT-5.5 ha invece risolto «The Last Ones» in 3 delle 10 prove.
Conferme anche da Palo Alto Networks
Anche Palo Alto Networks ha registrato risultati simili nei propri test. L'azienda ha iniziato a testare Claude Mythos ad aprile come partner di lancio per Anthropic’s Project Glasswing, e successivamente ha valutato anche Claude Opus 4.7 e GPT-5.5-Cyber nell'ambito del programma OpenAI’s Trusted Access for Cyber.
«I modelli più recenti sono straordinariamente abili nel trovare vulnerabilità e trasformarle in percorsi di exploit critici in tempo quasi reale», ha dichiarato Palo Alto Networks. L'azienda ha inoltre rilasciato 26 CVE (Common Vulnerabilities and Exposures) relativi a 75 problemi di sicurezza, un volume ben superiore alla media mensile di 5 CVE tipica del settore. Tutte le vulnerabilità critiche nei prodotti SaaS sono state risolte, con patch disponibili anche per i prodotti gestiti dai clienti.
Limiti e incertezze
L'AISI ha sottolineato i limiti dei dati raccolti: le stime si basano su un numero relativamente piccolo di modelli, e i compiti più difficili del test hanno meno dati di confronto umani. Tuttavia, l'istituto ha affermato che il trend complessivo rimane solido: escludere un singolo modello dall'analisi non modifica significativamente i risultati, spostando il tempo di raddoppio di meno di un mese in entrambe le direzioni.
Studi separati condotti da METR, un'organizzazione no-profit che monitora la velocità con cui l'AI gestisce compiti software, confermano questa accelerazione senza precedenti.