오픈AI, ChatGPT 이미지 2.0 공개
오픈AI가ChatGPT 사용자들에게 제공하던 이미지 생성 기능을 한층 강화한 ChatGPT 이미지 2.0을 발표했다. 이번 업데이트는 이미지 생성 모델의 혁신적인 변화로 평가되며, 특히 상세한 지시사항 준수, 복잡한 텍스트 렌더링, 객체 배치 및Scene 구성 능력이 크게 향상되었다고 오픈AI는 설명했다.
비라틴어 텍스트 렌더링 성능 대폭 향상
이미지 2.0의 가장 큰 특징은 일본어, 한국어, 중국어, 힌디어, 벵골어 등 비라틴어 텍스트 렌더링 성능이 크게 개선되었다는 점이다. 오픈AI는 각 언어의 시각적 특징을 더 정확하게 재현할 수 있게 되어, 게임 프로토타입 제작이나 스토리보드 작업 등에 유용할 것으로 기대하고 있다.
추론 기능 탑재로 더 신뢰성 높은 이미지 생성
이번에 공개된 모델은 추론 기능이 추가되어 웹 검색을 통한 정보 확인 및 출력물 검증이 가능해졌다. 오픈AI는 정확성, 일관성, 시각적 조화 측면에서 더 신뢰할 수 있는 도구가 될 것이라고 강조했다.
다양한 이미지 생성 기능 지원
- 비율 유연성 확대: 가로 3:1에서 세로 1:3까지 다양한 비율의 이미지 생성 가능
- 고해상도 지원: 최대 2K 해상도 이미지 생성
- 다중 출력 기능: 한 번에 최대 8개의 이미지 생성 가능
실제 테스트 결과는? 이미지 2.0의 성능 확인
이미지 2.0의 성능을 확인하기 위해 세 가지 테스트를 진행했다. 먼저 픽셀 아트 스타일의 고양이 이미지 생성을 요청했다. AI 모델들이 픽셀 아트 스타일을 구현하기 어려운 점을 고려했을 때, 포켓몬스터 3세대 스타일을 정확히 재현한 결과는 주목할 만하다.
두 번째 테스트에서는 생성된 이미지를 투명 PNG로 변환하는 작업을 요청했다. 대부분의 이미지 생성 모델이 투명 이미지 생성에 어려움을 겪는다는 점을 감안했을 때, 성공적으로 변환된 결과는 긍정적이었다. 다만, 두 번째 이미지가 첫 번째 이미지와 약간 다른 부분이 있어 지시사항 준수 측면에서 개선이 필요하다는 지적도 있었다.
마지막으로 고양이가 도시의 시냇가에서 햇볕을 즐기는 4페이지 분량의 만화 제작을 요청했다. 결과물은 창의적이고 디테일한 스토리텔링이 돋보였으며, 각 페이지의 고양이 모습이 조금씩 달라졌지만 전체적인 흐름은 잘 유지되었다.
향후 경쟁 모델과의 비교 기대
현재 이미지 2.0은 구글의 'Nano Banana 2'와 같은 경쟁 모델들과의 비교가 주목되고 있다. 오픈AI는 더 많은 사용자들이 직접 테스트해보면서 성능을 검증할 수 있을 것으로 전망하고 있다.
“이미지 2.0은 단순히 이미지를 생성하는 도구를 넘어, 사용자의 의도를 더 정확하게 이해하고 구현할 수 있는 혁신적인 모델입니다.”
- 오픈AI 공식 발표문 中