논문 링크: Learning Transferable Visual Models From Natural Language Supervision
OUTTA 논문 리뷰 링크:
0. Abstract
- 기존 SOTA Computer Vision 시스템은 고정된 object category에만 대응하며, 확장성과 일반성을 저해.
- CLIP은 인터넷에서 얻은 4억 개의 이미지-텍스트 쌍을 학습하여 zero-shot 학습이 가능하도록 설계.
- 다양한 downstream task에 적용 가능하며, OCR, action recognition 등 30개 이상 task에서 높은 성능을 달성.
1. Introduction and Motivating Work
- NLP 분야의 발전 사례:
- BERT, GPT는 대규모 텍스트 데이터로 pre-training 후 fine-tuning 방식 사용.
- Task-agnostic 모델은 다양한 task에서 zero-shot transfer 가능.
- Computer Vision의 한계:
- CNN 기반 모델은 성능은 뛰어나지만 zero-shot 학습에서는 낮은 정확도.
- Weak supervised learning은 일부 성과를 보였으나 유연성이 부족.
- CLIP의 제안:
- 이미지와 텍스트를 multimodal 학습하여 다양한 vision task에서 좋은 결과를 달성.
2. Approach
2.1. Natural Language Supervision
- 자연어 supervision의 장점:
- 별도의 라벨링 작업 없이 대규모 데이터 학습 가능.
- 언어와 이미지 모두를 학습하여 multi-modal embedding 획득 및 zero-shot transfer를 유연하게 지원.
- 기존 연구는 자연어 complexity로 어려움이 있었으나, 개선된 접근법을 통해 효율적 학습 가능.
2.2. Creating a Sufficiently Large Dataset
- 기존 데이터셋 한계:
- MS-COCO, Visual Genome: 고품질이지만 데이터 크기가 작음.
- YFCC100M: 대규모지만 품질이 들쑥날쑥.
- CLIP의 WIT 데이터셋:
- 4억 개의 (image, text) 쌍으로 구성된 데이터셋을 인터넷에서 수집.
2.3. Selecting an Efficient Pre-Training Method
- Contrastive Learning 방식 채택:
- ▼ CL(Contrastive Learning), CE(Cross Entropy) 설명
-
더보기
Contrastive Learning (CL)
- 정의:
- 유사한 샘플(positive pair)은 임베딩 공간에서 가깝게,
- 다른 샘플(negative pair)은 멀어지게 학습하는 기법
- 목적:
- 이미지·텍스트 등 다른 모달 간 관계를 효과적으로 학습
- 라벨이 제한적인 환경에서도 데이터 구조 파악 가능
- 장점:
- 추가 라벨이 없어도 pair 정보만으로 학습 가능
- 모달 간 표현학습(multimodal learning)에 특히 유용
- 사용 예:
- CLIP에서 (이미지, 텍스트) 쌍의 유사도(positive pair)를 높이고
나머지(negative pair)의 유사도는 낮추기 위해 활용
- CLIP에서 (이미지, 텍스트) 쌍의 유사도(positive pair)를 높이고
Cross-Entropy (교차 엔트로피) Loss
- 정의:
- 분류 문제에서 예측 확률 분포와 실제 라벨(원핫 벡터) 분포 간의 거리를 측정하는 지표
- 동작 방식:
- 정답 라벨의 예측 확률을 크게,
- 오답 라벨의 예측 확률을 작게 만드는 방향으로 파라미터를 업데이트
- 장점:
- 수학적으로 간단하고, 분포 간 차이를 직접 계산 가능
- 대부분의 분류 문제에서 표준 손실 함수로 활용
- 사용 예:
- CLIP의 Contrastive Learning에서 배치 내 모든 (이미지, 텍스트) 쌍에 대해
Cross-Entropy Loss를 계산 → Positive pair는 높은 확률(=유사도), Negative pair는 낮은 확률로 학습
- CLIP의 Contrastive Learning에서 배치 내 모든 (이미지, 텍스트) 쌍에 대해
핵심 요점
- Contrastive Learning:
- 비슷한 쌍은 가까이, 다른 쌍은 멀리 → 임베딩 공간 구조 학습
- Cross-Entropy Loss:
- 예측 확률 분포 vs 실제 라벨 분포 차이를 최소화 → 분류 성능 강화
- CLIP 맥락:
- (이미지, 텍스트) 쌍을 Contrastive Learning으로 학습,
- 해당 학습 과정의 목표 함수를 Cross-Entropy로 설정하여 유사도 스케일링
- 정의:
- N개의 (image, text) 쌍에서 positive pair와 negative pair 구분.
- Cosine similarity를 사용하여:
- Positive pair 유사도: 최대화.
- Negative pair 유사도: 최소화.
- Cross-entropy loss로 학습.
- 단순화된 학습 구조:
- Multi-modal embedding을 위해 linear projection만 사용.
- 데이터 증강은 이미지 크기 변환만 수행.
2.4. Choosing and Scaling a Model
- Image Encoder:
- ResNet-D: Attention Pooling으로 수정.
- Vision Transformer(ViT): 의 원본 그대로 사용(추가 LN만 적용).
- Text Encoder:
- Transformer 사용.
- Max length = 76으로 제한. 실제 구현에선 마지막 token 고려해 77 설정.
- 효율적 모델 스케일링:
- ResNet: 폭, 깊이, 해상도를 균등하게 증가.
- Text Encoder: 폭만 증가.
2.5. Training
- 모델 종류:
- ResNet-50, ResNet-101, RN50x4, RN50x16, RN50x64.
- ViT-B/32, ViT-B/16, ViT-L/14.
- Training 설정:
- 32 epochs 학습.
- Optimizer: Adam.
- Scheduler: Cosine decay.
- Temperature parameter τ: 학습 중 최적화.
3. Experiments
3.1. Zero-Shot Transfer
- Zero-shot 분류 방식:
- 이미지와 모든 클래스 이름을 텍스트로 변환한 뒤 cosine similarity(유사도) 기반 분류.
- 예: "A photo of a {class}."
- Prompt Engineering:
- 텍스트 템플릿을 다양화하여 성능 개선.
- 예: "A satellite photo of a {class}."
- Zero-shot 성능:
- Stanford Cars, Food101: SOTA 성능 초과.
- EuroSAT, RESISC45: 특수한 데이터셋에서는 낮은 성능. → 도메인 특수성이 원인.
3.2. Representation Learning
- CLIP은 효율적인 image representation 학습.
- Linear probe(선형 분류기) 성능:
- ResNetx64, ViT-L/14 모델에서 기존 SOTA 초과.
3.3. Robustness to Natural Distribution Shift
- Distribution shift 문제에서 높은 성능:
- 다양한 데이터 분포에서 일반화 성능 우수.
4. Comparison to Human Performance
- CLIP은 일부 task에서 인간 수준의 성능을 보였으나, domain-specific task에서는 한계.
5. Data Overlap Analysis
- WIT 데이터셋과 실험에 사용된 데이터셋 간의 중복 여부 분석:
- 일부 데이터셋에서 작은 중복 발견.
6. Limitations
- Domain-specific 데이터셋에서 낮은 성능.
- 텍스트와 이미지 쌍의 품질이 모델 성능에 큰 영향을 미침.
7. Broader Impacts
7.1. Bias
- 인터넷 데이터셋 기반 학습으로 인해 편향 문제 존재.
7.2. Surveillance
- 대규모 데이터 모델이 감시 기술에 악용될 가능성.
7.3. Future Work
- 다양한 도메인을 아우르기 위한 연구 필요.
- 모델 해석 가능성(Explainability) 및 편향 완화 기법 연구 중요.
8. Related Work
- 이미지-텍스트 멀티모달 학습의 역사적 발전 경향.
- VirTex, ConVIRT 등 이전 방법론과의 비교.
9. Conclusion
- CLIP은 대규모 (이미지, 텍스트) 데이터와 자연어 supervision을 통해 강력한 zero-shot 성능을 달성.
- 다양한 비전 태스크에서 기존 기법을 능가하거나 비슷한 결과를 냄.
- 향후 도메인 편향 및 사회적 영향을 고려한 연구 필요.