논문 링크: https://arxiv.org/pdf/2308.067211. Introduction배경 및 문제점최근 GLIDE, DALL-E 2, Imagen, Stable Diffusion(SD), eDiff-I, RAPHAEL 등의 대형 텍스트-이미지 확산 모델(Diffusion Model)이 강력한 생성 능력을 보임.하지만 텍스트 프롬프트만으로 원하는 이미지를 생성하는 것은 어렵고 복잡한 프롬프트 엔지니어링(Prompt Engineering)이 필요.텍스트는 복잡한 장면이나 개념을 표현하는 데 한계가 있음.이미지 프롬프트(Image Prompt)는 더 직관적이면서도 풍부한 정보를 제공할 수 있음.기존 연구의 한계DALL-E 2는 이미지 프롬프트를 지원하지만, 사전 모델을 필요로 하고 대부분의 텍스트..