OpenAI verbessert Bildgenerierung mit ChatGPT Images 2.0

Mehr als ein Jahr nach der Einführung von ChatGPTs Bildgenerierungsfunktion stellt OpenAI nun ChatGPT Images 2.0 vor. Das Unternehmen bezeichnet das Update als einen „entscheidenden Fortschritt“ für Bildgenerierungsmodelle. Besonders die Fähigkeit, Anweisungen präzise umzusetzen, dichte Texte darzustellen und Objekte in Szenen korrekt zu platzieren, wurde deutlich verbessert.

Neue Funktionen und Verbesserungen

Erstmals integriert OpenAI ein Bildmodell mit Reasoning-Fähigkeiten. Das System kann nun im Internet nach Informationen suchen und seine Ergebnisse überprüfen. Dadurch soll die Zuverlässigkeit bei Aufgaben mit hohen Genauigkeitsanforderungen steigen.

Ein Schwerpunkt liegt auf der besseren Darstellung nicht-lateinischer Texte. ChatGPT Images 2.0 zeigt deutliche Fortschritte bei Sprachen wie Japanisch, Koreanisch, Chinesisch, Hindi und Bengali. Zudem kann das Modell die spezifischen Merkmale verschiedener Schriftsysteme präziser wiedergeben – ein Vorteil für Anwendungen wie Spielprototyping oder Storyboarding.

Flexiblere Bildformate und höhere Auflösung

Das Update ermöglicht flexiblere Seitenverhältnisse von bis zu 3:1 (breit) oder 1:3 (hoch). Bilder können nun in Auflösungen bis zu 2K generiert werden. Zudem lassen sich bis zu acht Varianten einer Bildidee in einem Durchgang erstellen.

Praktische Tests zeigen Stärken und Grenzen

Ein erster Test mit ChatGPT Images 2.0 umfasste drei Aufgaben:

  • Erstellung eines pixeligen Katzenbilds im Stil der Pokémon-Spiele der dritten Generation
  • Umwandlung des Bilds in ein transparentes PNG
  • Generierung eines vierseitigen Manga über eine Katze an einem sonnigen Bach

Die Ergebnisse waren überwiegend positiv: Die Pixel-Art-Katze entsprach dem gewünschten Stil, und die transparente PNG-Umwandlung gelang fehlerfrei. Beim Manga zeigten sich jedoch leichte Abweichungen vom ursprünglichen Katzenmotiv. Dennoch übertrifft das Modell laut ersten Tests viele Konkurrenzprodukte, etwa Googles „Nano Banana 2“.

„ChatGPT Images 2.0 ist ein großer Schritt nach vorn, besonders bei der Darstellung nicht-lateinischer Texte und der Flexibilität bei Bildformaten.“
– OpenAI

Fazit: Mehr Präzision und neue Möglichkeiten

Mit ChatGPT Images 2.0 setzt OpenAI neue Maßstäbe in der Bildgenerierung. Die verbesserten Texterkennungsfähigkeiten und die höhere Flexibilität bei Formaten und Auflösungen eröffnen neue Anwendungsbereiche – von der Spieleentwicklung bis zur kreativen Content-Erstellung. Nutzer können bald selbst testen, ob das Modell im direkten Vergleich mit anderen Tools wie Google Nano Banana 2 überzeugt.

Quelle: Engadget