米OpenAIは、ChatGPTの画像生成機能「ChatGPT Images 2.0」を発表した。同社はこれを画像生成モデルにおける「大きな飛躍」と位置付け、指示の詳細な理解、密集したテキストのレンダリング、オブジェクトの配置や関係性の再現性が大幅に向上したとしている。
特に注目すべきは、非ラテン文字の処理能力だ。日本語、韓国語、中国語、ヒンディー語、ベンガル語などのテキストをこれまで以上に正確にレンダリングできるようになり、視覚言語の特性を忠実に再現する能力も強化された。これにより、ゲームのプロトタイピングやストーリーボード作成など、より幅広い用途での活用が期待される。
新機能の主な特徴:
- 非ラテン文字の高精度レンダリング:日本語や中国語などの複雑な文字セットでも、より自然で正確な表現が可能に。
- 推論機能の統合:画像生成時にウェブ検索や出力の検証を行い、一貫性と正確性を向上。
- 柔軟なアスペクト比:3:1(横長)から1:3(縦長)までの幅広い比率に対応。
- 高解像度対応:最大2K解像度での画像生成が可能。
- 複数出力機能:一度のリクエストで最大8枚の画像を生成。
同社によると、これらの改善により、正確性や一貫性、視覚的なまとまりが求められる用途において、より信頼性の高いツールとなるという。
実際のテスト結果
筆者は公開に先駆け、ChatGPT Images 2.0のプレビュー版を使用する機会を得た。最初のテストでは、ポケモン第3世代のピクセルアート風の Tortoiseshell(三毛猫)を生成させた。ピクセルアートはAIモデルにとって難易度が高いとされるが、結果は期待以上の仕上がりとなった。
次に、生成した画像を透過PNG形式に変換させるテストを行った。この機能は他の画像生成モデルでは苦手とするケースが多いが、ChatGPT Images 2.0は正確に処理することに成功した。
最後のテストでは、猫が晴れた日に街の小川で過ごす4ページの漫画を生成させた。生成された画像は、先の猫とは若干異なるデザインとなったが、ストーリーの流れを踏まえた自然な表現が見られた。
課題点も明確に
一方で、2番目のテストでは生成に時間がかかり、出力結果が1枚目と完全に一致しなかった点が指摘された。しかし、透過画像の生成に成功したことは、他のモデルと比較して優れた進歩と言える。
今後、より多くのユーザーが実際に使用することで、Googleの「Nano Banana 2」など他の画像生成モデルとの比較がより明確になると見られる。