En milepæl for billedgenerering

OpenAI har netop lanceret ChatGPT Images 2.0, en opgraderet version af deres billedgenereringsværktøj, som markerer et betydeligt skridt fremad inden for AI-baseret billedproduktion. Ifølge OpenAI udgør den nye model en "baneændring" for billedgenereringsmodeller, især når det kommer til at følge instruktioner nøjagtigt, gengive tæt tekst og placere objekter korrekt i en scene.

Nye evner til præcis tekstgengivelse

For første gang har OpenAI integreret ræsonnementsevner i billedmodellen. Det betyder, at systemet nu kan søge på nettet og verificere sine egne outputs, hvilket øger pålideligheden, når nøjagtighed og konsistens er afgørende. Et af de mest markante fremskridt er den forbedrede evne til at håndtere og gengive ikke-latinske skriftsprog.

OpenAI fremhæver betydelige fremskridt inden for sprog som japansk, koreansk, kinesisk, hindi og bengali. Modellen kan nu mere præcist gengive de specifikke karakteristika ved forskellige skriftsprog, hvilket gør den særligt nyttig til opgaver som game prototyping og storyboarding.

Flere funktioner og forbedringer

  • Billedformater: Den nye model understøtter nu ekstreme aspektforhold, fra 3:1 (bredde) til 1:3 (højde).
  • Opløsning: Billeder kan genereres i op til 2K-opløsning.
  • Batch-generering: Op til otte billeder kan produceres samtidigt.

Test af den nye model

Jeg fik mulighed for at afprøve Images 2.0 inden den officielle lancering. Første opgave var at generere et billede af en skildpaddefarvet kat i Pokémon-stil fra tredje generation. Pixelkunst er ofte en udfordring for AI-modeller, men resultatet var imponerende og leverede en tro kopi af den ikoniske stil fra Game Boy Advance-spillene.

Herefter bad jeg modellen om at konvertere billedet til et transparent PNG-format. Selvom processen tog længst tid, lykkedes det at producere et korrekt transparent billede – en funktion, som mange andre billedmodeller kæmper med.

Som sidste test bad jeg ChatGPT om at skabe en fire-siders manga om min kat, der nydt en solrig dag ved en bystrøm. Resultatet viste en kat, der ikke var identisk med det første billede, men alligevel overbevisende og i tråd med den ønskede stil.

Hvordan klarer den sig mod konkurrenterne?

Med lanceringen af Images 2.0 kommer OpenAI tættere på konkurrenter som Google’s Nano Banana 2. Når flere brugere får mulighed for at afprøve den nye model, vil vi få et klarere billede af dens styrker og svagheder i forhold til eksisterende løsninger.

"ChatGPT Images 2.0 repræsenterer et væsentligt skridt fremad inden for billedgenerering, især når det kommer til præcision og alsidighed. Den nye models evne til at håndtere ikke-latinske tekster og generere billeder i høj opløsning åbner døren for nye anvendelsesmuligheder."

Kilde: Engadget