ChatGPT 새 이미지 2.0 모델, 텍스트 생성 능력이 놀라울 만큼 좋아졌다

예전에는 사람이 만든 이미지와 AI가 만든 이미지를 구분하는 일이 꽤 쉬웠습니다. 불과 2년 전만 해도 이미지 생성 모델로 멕시코 음식점 메뉴를 만들면, 엉뚱한 철자의 가짜 단어가 잔뜩 들어간 결과물이 나오기 일쑤였습니다.

하지만 이제는 상황이 달라졌습니다. 새 ChatGPT 이미지 2.0 모델에 멕시코 음식 메뉴를 만들어 달라고 하면, 손님이 큰 이상을 눈치채지 못할 정도로 그럴듯한 결과를 바로 내놓습니다. 물론 13.50달러짜리 세비체 같은 가격표를 보면 재료의 질을 의심하게 될지도 모르지만요.

비교를 위해 2년 전 DALL-E 3가 내놓은 결과를 보면 차이가 더 선명합니다. 당시만 해도 ChatGPT는 아직 직접 이미지를 생성하지 않았습니다.

AI 이미지 생성기가 오랫동안 철자 표현에 약했던 이유는, 주로 노이즈에서 이미지를 복원하는 확산 모델을 기반으로 작동했기 때문입니다. 이런 방식은 이미지 전체 구조를 그럴듯하게 만드는 데는 강하지만, 글자처럼 작은 세부 요소를 정확히 재현하는 데는 취약했습니다.

레산 AI의 창업자이자 CEO인 아스멜라시 테카 하드구는 2024년 테크크런치와의 인터뷰에서, 확산 모델은 입력을 재구성하는 과정에서 텍스트가 이미지의 아주 작은 부분에 불과하기 때문에 해당 픽셀 패턴을 충분히 정교하게 학습하지 못한다고 설명했습니다.

이후 연구자들은 이미지가 어떤 모습이어야 하는지를 한 토큰씩 예측하는 자동회귀 방식 등, LLM과 더 닮은 새로운 이미지 생성 메커니즘을 실험해 왔습니다.

다만 오픈AI는 이번 주 언론 브리핑에서 ChatGPT 이미지 2.0을 실제로 구동하는 모델 구조가 무엇인지에 대해서는 답변을 거부했습니다.