Meno di un anno dopo aver introdotto la possibilità di generare immagini direttamente da ChatGPT, OpenAI presenta ChatGPT Images 2.0, un’evoluzione che promette di rivoluzionare i modelli di generazione visiva. Secondo l’azienda, si tratta di un "salto qualitativo" grazie a miglioramenti significativi nella comprensione delle istruzioni, nella resa di testo denso e nella disposizione degli elementi all’interno di una scena.
Per la prima volta, OpenAI ha integrato capacità di ragionamento nel modello di generazione immagini. Questo consente al sistema di effettuare ricerche sul web e verificare i risultati prodotti, garantendo maggiore affidabilità in termini di accuratezza, coerenza e coesione visiva. Un esempio delle nuove capacità di ChatGPT nella resa di testo non latino. OpenAI
Un focus particolare è stato posto sul miglioramento della comprensione e della resa di lingue non latine. OpenAI afferma di aver ottenuto "guadagni significativi" nella gestione di lingue come il giapponese, il coreano, il cinese, l’hindi e il bengalese. Inoltre, il modello è ora in grado di riprodurre con maggiore fedeltà le caratteristiche visive di diversi alfabeti, rendendolo uno strumento più efficace per compiti come la prototipazione di videogiochi e la creazione di storyboard.
Tra le altre novità, Images 2.0 offre una maggiore flessibilità nei rapporti di aspetto, supportando formati estremi come 3:1 (orizzontale) e 1:3 (verticale). Il modello può generare immagini con risoluzioni fino a 2K e produrre fino a otto output contemporaneamente.
Per testare le nuove funzionalità, abbiamo avuto accesso a una versione preliminare di Images 2.0. Il primo test consisteva nella generazione di un’immagine di un gatto tartaruga in stile pixel art, ispirato alla terza generazione dei giochi Pokémon. Un compito impegnativo, considerato che i modelli AI faticano spesso con gli stili pixel art e i giochi Game Boy Advance sono iconici per il loro design. Il risultato ottenuto è stato soddisfacente, con una resa che ha rispettato lo stile richiesto.
Nel secondo test, abbiamo chiesto a ChatGPT di convertire l’immagine generata in un formato PNG trasparente. Il processo ha richiesto più tempo rispetto agli altri test, e il risultato finale presentava alcune lievi differenze rispetto all’immagine originale, ma ha comunque rispettato la richiesta di trasparenza, un’operazione che altri modelli faticano a eseguire correttamente.
Infine, abbiamo sottoposto il modello a una prova più complessa: la creazione di un manga in quattro pagine che raffigurasse il nostro gatto mentre trascorreva una giornata soleggiata vicino a un ruscello in una città idilliaca. Anche in questo caso, il risultato è stato apprezzabile, con alcune differenze stilistiche rispetto all’immagine del gatto generata in precedenza, ma comunque coerente con la richiesta iniziale.
Con l’uso diffuso di Images 2.0, sarà possibile valutare meglio le sue prestazioni rispetto a modelli concorrenti come Google Nano Banana 2. Nel frattempo, OpenAI continua a spingere i limiti della generazione di immagini basata su intelligenza artificiale, rendendo gli strumenti sempre più accessibili e potenti per creatori, sviluppatori e professionisti del settore.