En stor uppgradering för bildgenerering
OpenAI har släppt ChatGPT Images 2.0, en betydande uppdatering av sin bildgenereringsmodell som introduceras drygt ett år efter att användare först kunde skapa bilder direkt i chatboten. Företaget beskriver den nya versionen som ett "genombrott" för bildmodeller, särskilt när det gäller förmågan att följa instruktioner noggrant, rendera tät text och korrekt placera objekt i scener.
Nya funktioner och förbättringar
För första gången har OpenAI integrerat resonemangsförmåga i en bildmodell. Detta innebär att systemet kan söka på webben och verifiera sina egna resultat, vilket enligt företaget leder till högre tillförlitlighet när noggrannhet och visuell sammanhållning är avgörande. Dessutom har modellen fått förbättrad förståelse för icke-latinska skriftsystem, med särskilt goda resultat för språk som japanska, koreanska, kinesiska, hindi och bengali.
OpenAI påpekar också att Images 2.0 bättre återskapar de unika egenskaperna hos olika visuella språk, vilket gör modellen mer användbar för uppgifter som spelprototyper och storyboardskapande.
Flexibilitet och högre upplösning
Den uppdaterade modellen stödjer nu fler bildformat, från mycket breda (3:1) till höga (1:3) bildförhållanden. Dessutom kan den generera bilder med en upplösning på upp till 2K och producera upp till åtta olika varianter av samma bild på en gång.
Test av den nya modellen
Innan den officiella lanseringen fick en granskare möjlighet att testa Images 2.0. Första uppgiften var att generera en bild av en sköldpaddsfärgad katt i pixelartstil, inspirerad av Pokémon från tredje generationen. Pixelkonst är ofta en utmaning för AI-modeller, men resultatet blev imponerande och nära det efterfrågade utseendet.
Nästa test gick ut på att konvertera den genererade bilden till ett transparent PNG-format, vilket modellen klarade utan problem – något som många andra bildmodeller har svårt med. Slutligen ombads modellen att skapa en fyra-sidig manga om en katt som njuter av en solig dag vid en idyllisk bäck. Även om katten i den sista bilden inte var exakt densamma som i de tidigare testerna, lyckades modellen ändå leverera en korrekt och sammanhängande historia.
Jämförelse med konkurrenter
När fler användare får möjlighet att testa Images 2.0 kommer det att bli tydligt hur den står sig mot konkurrenter som Googles Nano Banana 2. OpenAI:s uppdatering lovar dock redan nu att vara ett starkt alternativ för utvecklare och kreatörer som kräver hög precision och flexibilitet i sina bildgenereringsverktyg.