OpenAI apresenta ChatGPT Images 2.0 com foco em textos não latinos e precisão
A OpenAI anunciou o lançamento do ChatGPT Images 2.0, uma atualização significativa para seu modelo de geração de imagens integrado ao chatbot. Segundo a empresa, a nova versão representa um "avanço" em relação aos modelos anteriores, especialmente na capacidade de seguir instruções detalhadas, renderizar textos densos e posicionar objetos em cenas com maior coerência.
Melhorias em textos não latinos e raciocínio avançado
Pela primeira vez, a OpenAI incorporou capacidades de raciocínio ao modelo de imagens, permitindo que a ferramenta pesquise na web e verifique suas próprias saídas. Isso deve resultar em maior confiabilidade em tarefas que exigem precisão, consistência e coesão visual.
Um dos principais destaques do ChatGPT Images 2.0 é a melhoria na renderização de textos não latinos. A empresa afirma ter alcançado "ganhos significativos" em idiomas como japonês, coreano, chinês, hindi e bengali, além de uma representação mais fiel das características visuais de cada linguagem. Essas melhorias tornam a ferramenta mais útil para prototipação de jogos e roteiros, por exemplo.
Flexibilidade em proporções e resoluções
Além das melhorias técnicas, o novo modelo oferece maior flexibilidade na geração de imagens. Agora, é possível criar imagens com proporções extremas, variando de 3:1 (muito largas) a 1:3 (muito altas). A resolução máxima chega a 2K, e o sistema pode gerar até oito imagens de uma só vez.
Testes práticos mostram avanços e limitações
Antes do lançamento oficial, a OpenAI permitiu que alguns usuários testassem o ChatGPT Images 2.0. Em um dos testes, foi solicitada a criação de uma imagem de um gato malhado no estilo pixel art da terceira geração dos jogos Pokémon. O resultado foi considerado satisfatório, já que modelos de IA geralmente têm dificuldade com pixel art.
Outro desafio foi converter a imagem gerada em um PNG transparente, uma tarefa que outros modelos de geração de imagens ainda enfrentam dificuldades. Embora o tempo de processamento tenha sido maior e o resultado tenha apresentado pequenas diferenças em relação à primeira imagem, o sistema cumpriu o objetivo.
Por fim, foi pedido ao ChatGPT que criasse um mangá de quatro páginas sobre um gato aproveitando um dia ensolarado à beira de um riacho. O resultado mostrou que o modelo consegue gerar sequências mais longas, embora ainda haja espaço para melhorias na consistência dos personagens.
Como o ChatGPT Images 2.0 se compara à concorrência?
Com o lançamento do ChatGPT Images 2.0, a OpenAI busca se destacar no mercado de geração de imagens por IA. Embora ainda não haja uma comparação oficial com modelos como o Google Nano Banana 2, a expectativa é que a nova versão ofereça maior precisão e flexibilidade, especialmente em tarefas que exigem textos não latinos e raciocínio integrado.
A OpenAI não divulgou uma data exata para o lançamento público, mas afirmou que a atualização estará disponível em breve para todos os usuários do ChatGPT.