En uppgraderad bildmotor med nya funktioner
ChatGPT:s senaste uppdatering av sin bildmotor, ChatGPT Images 2.0, har nu lanserats och introducerar flera förbättringar. Bland de mest framträdande förändringarna finns bättre typografi, direkt tillgång till webben och en ny förmåga att resonera kring uppgifter.
Två lägen för olika behov
Den nya versionen stöder flera bildformat och erbjuder två lägen: standardläge och "tänkande"-läge. Standardläget är tillgängligt för alla användare, medan det mer avancerade "tänkande"-läget endast är tillgängligt för betalande prenumeranter.
Testresultat: imponerande men med brister
Under en dags testning har vi prövat bildmotorn på en rad olika uppgifter. Resultaten visar på både styrkor och svagheter:
- Personliga minnesbilder: En vän bad om en minnesbild av sin nyligen avlidna katt tillsammans med två favoritleksaker. Bildmotorn skapade en bild som liknade ett personligt kondoleanskort.
- Fotobokseffekter: Två bilder från en bröllopsceremoni förvandlades till att se ut som om de tillhörde en gammaldags fotobok med hörn.
- Fiktiva evenemang: Kollegor föreslog en affisch för ett fiktivt evenemang – en tävling där deltagarna skulle se ut som Mike Allen i Washington Square Park. (Notera: Evenemanget var endast fiktivt om ingen dök upp.)
- Infografik: En infografik som argumenterade mot godis-majs skapades för att övertyga kollegor om att den varken är godis eller majs. Tyvärr utan framgång.
- Rumsuppstädning: Bildmotorn användes för att visualisera hur ett rum skulle se ut utan kläder, leksaker och prylar. Resultatet visade på en oväntat stor yta, men partnern såg det som en spydig kommentar och frågade när ChatGPT skulle städa rummet i verkligheten.
- Idrottskort: Bilder på användaren som spelar softboll och dennes 13-årige son som spelar fotboll omvandlades till idrottskort med namn, position och laglogo.
Utmaningar och begränsningar
Trots de imponerande resultaten fanns det också utmaningar:
- Föråldrad information: När användaren bad om en falsk tidning baserad på de senaste Axios-nyheterna, använde bildmotorn först äldre artiklar. Vid ett andra försök inkluderades nyare nyheter, men resultatet såg mer ut som en skiss än en färdig tidning.
- Bristande elegans: En fråga om en fusk-snurra för mahjong resulterade i en korrekt men oputsad bild.
- Långa väntetider: Den utökade resonemangsförmågan innebär att bilder kan ta avsevärt längre tid att generera.
Framtiden för AI-genererade bilder
ChatGPT:s nya bildmotor visar på stora möjligheter för AI-genererade bilder, men det finns fortfarande utvecklingspotential. Funktioner som bättre typografi, tillgång till realtidsinformation och resonemangsförmåga är steg i rätt riktning. Samtidigt kvarstår utmaningar som precision, elegans och effektivitet.
För användare som är villiga att vänta på resultat och acceptera vissa brister kan den nya bildmotorn vara ett kraftfullt verktyg. För andra kan det vara värt att avvakta tills fler förbättringar implementeras.