[OUTTA Alpha팀 논문 리뷰] Part 10-3. IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models

Paper Review/Computer Vision

[OUTTA Alpha팀 논문 리뷰] Part 10-3. IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models

YeonJuJeon 2025. 2. 9. 18:14

논문 링크: https://arxiv.org/pdf/2308.06721

1. Introduction

배경 및 문제점
- 최근 GLIDE, DALL-E 2, Imagen, Stable Diffusion(SD), eDiff-I, RAPHAEL 등의 대형 텍스트-이미지 확산 모델(Diffusion Model)이 강력한 생성 능력을 보임.
- 하지만 텍스트 프롬프트만으로 원하는 이미지를 생성하는 것은 어렵고 복잡한 프롬프트 엔지니어링(Prompt Engineering)이 필요.
- 텍스트는 복잡한 장면이나 개념을 표현하는 데 한계가 있음.
- 이미지 프롬프트(Image Prompt)는 더 직관적이면서도 풍부한 정보를 제공할 수 있음.
기존 연구의 한계
- DALL-E 2는 이미지 프롬프트를 지원하지만, 사전 모델을 필요로 하고 대부분의 텍스트 기반 확산 모델에서는 직접 지원되지 않음.
- SD Image Variations, Stable unCLIP 등의 방법은 텍스트-이미지 모델을 이미지 임베딩 기반으로 미세 조정(Fine-tuning).
- 하지만 이러한 접근법은:
  - 텍스트 기반 생성 능력을 제거하고, 높은 연산 비용이 필요.
  - 기존의 ControlNet과 같은 구조 제어 도구와 호환되지 않음.
IP-Adapter 제안
- 기존 확산 모델을 수정하지 않으면서 이미지 프롬프트 기능을 추가하는 경량화된 어댑터(Adapter) 제안.
- Decoupled Cross-Attention 메커니즘 도입 → 텍스트와 이미지 특징을 개별적인 Cross-Attention Layer에서 학습.
- IP-Adapter(22M 파라미터)만으로도 전체 모델을 Fine-tuning한 수준의 성능 달성.
- 원래의 텍스트-이미지 모델을 유지하면서도 이미지 프롬프트를 지원 → 텍스트+이미지의 멀티모달 이미지 생성 가능.

2. Related Work

2.1 텍스트-이미지 확산 모델(Text-to-Image Diffusion Models)

초기 모델: DALL-E, CogView, Make-A-Scene → Auto-regressive 방식.
최근 주류 모델: 확산 모델(Diffusion Models) 기반 모델
- GLIDE, DALL-E 2, Imagen, Stable Diffusion(SD), eDiff-I, RAPHAEL.
- 텍스트 특징을 CLIP 기반의 텍스트 인코더로 추출하여 이미지 생성을 유도.
이미지 프롬프트 지원 문제
- DALL-E 2는 이미지 프롬프트를 지원하지만, 텍스트-이미지 모델과 구조적으로 다름.
- SD Image Variations, Stable unCLIP은 기존 SD 모델을 Fine-tuning하여 이미지 임베딩을 활용하지만, 연산 비용이 크고 기존 도구와 호환되지 않음.

2.2 대형 모델을 위한 어댑터 연구(Adapters for Large Models)

NLP에서 어댑터는 소수의 파라미터만 학습하면서도 원래 모델을 유지하는 방식으로 발전.
ControlNet, T2I-Adapter 등은 구조 제어(Sketch, Depth map, Segmentation 등)를 활용하여 추가적인 제어 기능을 제공.
기존 어댑터 방식의 한계:
- 텍스트 특징과 이미지 특징을 단순히 결합하여 사용 → 이미지의 세부 정보를 온전히 반영하지 못함.
- Fine-tuning한 모델보다 생성 품질이 떨어짐.
- 이미지 프롬프트만 지원하며, 텍스트와의 멀티모달 결합이 불가능.

3. Method

3.1 Diffusion Models 개요

확산 모델(Diffusion Model)은 Forward Diffusion(노이즈 추가) + Reverse Denoising(이미지 생성) 과정으로 구성.
일반적인 확산 모델의 손실 함수: $$L_{\text{simple}} = E_{x_0, \epsilon, t} \| \epsilon - \epsilon_{\theta} (x_t, c, t) \|^2$$
- $$x_t = \alpha_t x_0 + \sigma_t \epsilon$$ : 시간 $t$에서의 노이즈 데이터.
- cc : 텍스트 또는 이미지 조건(condition).
- Classifier-Free Guidance를 사용하여 이미지-텍스트 정렬 성능 향상.

3.2 Image Prompt Adapter

(1) 이미지 인코더 (Image Encoder)

CLIP 이미지 인코더(OpenCLIP ViT-H/14) 활용 → 이미지 프롬프트를 CLIP 이미지 임베딩으로 변환.
작은 투영 네트워크(Projection Network) 추가 → 이미지 임베딩을 UNet의 특징 공간과 동일한 차원으로 변환.

(2) 분리된 크로스 어텐션 (Decoupled Cross-Attention)

기존 방법의 문제:
- 이미지 특징과 텍스트 특징을 결합하여 기존 Cross-Attention에 입력 → 이미지 세부 정보 반영이 어려움.
IP-Adapter의 해결책:
- 기존 UNet의 크로스 어텐션을 그대로 유지.
- 이미지 전용 Cross-Attention Layer 추가 → 이미지와 텍스트를 별도로 처리.
- 최종적으로 두 개의 어텐션 출력을 합산: $$Z_{\text{new}} = \text{Softmax} \left( \frac{QK^T}{\sqrt{d}} \right) V + \lambda \cdot \text{Softmax} \left( \frac{QK'^T}{\sqrt{d}} \right) V'$$
  - λ\lambda 조절을 통해 이미지 프롬프트의 가중치 조정 가능.

(3) 훈련 및 추론

훈련 시 원래 확산 모델은 Freeze하고 IP-Adapter만 학습.
Classifier-Free Guidance 적용하여 이미지 프롬프트와 텍스트 프롬프트 조합 가능.
추론 시 λ\lambda 값을 조절하여 텍스트/이미지 프롬프트의 영향 비율 조정.

4. Experiments

4.1 실험 설정

훈련 데이터: LAION-2B, COYO-700M에서 1천만 개의 텍스트-이미지 페어 데이터 활용.
모델 구조: Stable Diffusion v1.5 기반, IP-Adapter는 22M 파라미터.
훈련 환경: 8 V100 GPU, 100만 스텝 학습, AdamW (lr=0.0001, weight_decay=0.01).

4.2 기존 방법과 비교

방법	파라미터 수	CLIP-T ↑	CLIP-I ↑
SD Image Variations	860M	0.548	0.760
Uni-ControlNet	47M	0.506	0.736
IP-Adapter	22M	0.588	0.828

Fine-tuning한 모델에 근접하는 성능을 22M의 경량 모델로 달성.
ControlNet 등과 함께 활용 가능 → 구조 제어 및 스타일 조정 지원.

5. Conclusion

IP-Adapter는 기존 텍스트-이미지 모델을 유지하면서 이미지 프롬프트를 추가하는 경량 솔루션.
텍스트 프롬프트와 조합하여 멀티모달 이미지 생성 가능.
Fine-tuning 없이 ControlNet, T2I-Adapter 등과 결합 가능 → 활용성이 뛰어남.

'Paper Review > Computer Vision' 카테고리의 다른 글

[OUTTA Alpha팀 논문 리뷰] Part 11-1. RePaint: Inpainting using Denoising Diffusion Probabilistic Models (0)	2025.02.13
[OUTTA Alpha팀 논문 리뷰 요약] Part 10-5. InstantStyle: Free Lunch towards Style-Preserving in Text-to-Image Generation (0)	2025.02.09
[OUTTA Alpha팀 논문 리뷰] Part 10-1. FAMI: Temporal Feature Alignment and Mutual Information Maximization for Video-Based Human Pose Estimation (0)	2025.02.09
[OUTTA Alpha팀 논문 리뷰 요약] Part 9-4. SR3: Image Super-Resolution via Iterative Refinement (0)	2025.02.01
[OUTTA Alpha팀 논문 리뷰 요약] Part 9-2. SRDiff : Single image super-resolution with diffusion probabilistic models (0)	2025.02.01

현재글[OUTTA Alpha팀 논문 리뷰] Part 10-3. IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models

연주의 공부 기록

Medical Image AI & CV 내가 보려고 만든 블로그💻 논문 & 코드 리뷰 및 이론 정리. * 논문 리뷰 요약은 흐름 파악용.

RNN, transformer, 의학영상처리, votenet, instantstyle, ip-adapter, Distillation, maisi, keras, voxelmorph, gpt-neox-20b, deep-emotion, fami, LSTM, classification, sleap, pytorch, regression, sr3, srdiff,

Today :
Yesterday :

연주의 공부 기록

[OUTTA Alpha팀 논문 리뷰] Part 10-3. IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models

1. Introduction

2. Related Work

2.1 텍스트-이미지 확산 모델(Text-to-Image Diffusion Models)

2.2 대형 모델을 위한 어댑터 연구(Adapters for Large Models)

3. Method

3.1 Diffusion Models 개요

3.2 Image Prompt Adapter

4. Experiments

4.1 실험 설정

4.2 기존 방법과 비교

5. Conclusion

'Paper Review > Computer Vision' 카테고리의 다른 글

'Paper Review/Computer Vision'의 다른글

티스토리툴바

« 2025/02 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

[OUTTA Alpha팀 논문 리뷰] Part 10-3. IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models

1. Introduction

2. Related Work

2.1 텍스트-이미지 확산 모델(Text-to-Image Diffusion Models)

2.2 대형 모델을 위한 어댑터 연구(Adapters for Large Models)

3. Method

3.1 Diffusion Models 개요

3.2 Image Prompt Adapter

4. Experiments

4.1 실험 설정

4.2 기존 방법과 비교

5. Conclusion

'Paper Review > Computer Vision' 카테고리의 다른 글

'Paper Review/Computer Vision'의 다른글

관련글

티스토리툴바