[OUTTA Alpha팀 논문 리뷰 요약] Part 6-1. CLIP: Learning Transferable Visual Models From Natural Language Supervision

Paper Review/Computer Vision

[OUTTA Alpha팀 논문 리뷰 요약] Part 6-1. CLIP: Learning Transferable Visual Models From Natural Language Supervision

YeonJuJeon 2025. 1. 7. 21:21

논문 링크: Learning Transferable Visual Models From Natural Language Supervision

OUTTA 논문 리뷰 링크:

0. Abstract

기존 SOTA Computer Vision 시스템은 고정된 object category에만 대응하며, 확장성과 일반성을 저해.
CLIP은 인터넷에서 얻은 4억 개의 이미지-텍스트 쌍을 학습하여 zero-shot 학습이 가능하도록 설계.
다양한 downstream task에 적용 가능하며, OCR, action recognition 등 30개 이상 task에서 높은 성능을 달성.

1. Introduction and Motivating Work

NLP 분야의 발전 사례:
- BERT, GPT는 대규모 텍스트 데이터로 pre-training 후 fine-tuning 방식 사용.
- Task-agnostic 모델은 다양한 task에서 zero-shot transfer 가능.
Computer Vision의 한계:
- CNN 기반 모델은 성능은 뛰어나지만 zero-shot 학습에서는 낮은 정확도.
- Weak supervised learning은 일부 성과를 보였으나 유연성이 부족.
CLIP의 제안:
- 이미지와 텍스트를 multimodal 학습하여 다양한 vision task에서 좋은 결과를 달성.

2. Approach

2.1. Natural Language Supervision

자연어 supervision의 장점:
1. 별도의 라벨링 작업 없이 대규모 데이터 학습 가능.
2. 언어와 이미지 모두를 학습하여 multi-modal embedding 획득 및 zero-shot transfer를 유연하게 지원.
기존 연구는 자연어 complexity로 어려움이 있었으나, 개선된 접근법을 통해 효율적 학습 가능.

2.2. Creating a Sufficiently Large Dataset

기존 데이터셋 한계:
- MS-COCO, Visual Genome: 고품질이지만 데이터 크기가 작음.
- YFCC100M: 대규모지만 품질이 들쑥날쑥.
CLIP의 WIT 데이터셋:
- 4억 개의 (image, text) 쌍으로 구성된 데이터셋을 인터넷에서 수집.

2.3. Selecting an Efficient Pre-Training Method

Contrastive Learning 방식 채택:
- ▼ CL(Contrastive Learning), CE(Cross Entropy) 설명
- 더보기
  Contrastive Learning (CL)
  - 정의:
    
    유사한 샘플(positive pair)은 임베딩 공간에서 가깝게,
    
    다른 샘플(negative pair)은 멀어지게 학습하는 기법
  - 목적:
    
    이미지·텍스트 등 다른 모달 간 관계를 효과적으로 학습
    
    라벨이 제한적인 환경에서도 데이터 구조 파악 가능
  - 장점:
    
    추가 라벨이 없어도 pair 정보만으로 학습 가능
    
    모달 간 표현학습(multimodal learning)에 특히 유용
  - 사용 예:
    
    CLIP에서 (이미지, 텍스트) 쌍의 유사도(positive pair)를 높이고
    나머지(negative pair)의 유사도는 낮추기 위해 활용
  Cross-Entropy (교차 엔트로피) Loss
  - 정의:
    
    분류 문제에서 예측 확률 분포와 실제 라벨(원핫 벡터) 분포 간의 거리를 측정하는 지표
  - 동작 방식:
    
    정답 라벨의 예측 확률을 크게,
    
    오답 라벨의 예측 확률을 작게 만드는 방향으로 파라미터를 업데이트
  - 장점:
    
    수학적으로 간단하고, 분포 간 차이를 직접 계산 가능
    
    대부분의 분류 문제에서 표준 손실 함수로 활용
  - 사용 예:
    
    CLIP의 Contrastive Learning에서 배치 내 모든 (이미지, 텍스트) 쌍에 대해
    Cross-Entropy Loss를 계산 → Positive pair는 높은 확률(=유사도), Negative pair는 낮은 확률로 학습
  핵심 요점
  1. Contrastive Learning:
    
    비슷한 쌍은 가까이, 다른 쌍은 멀리 → 임베딩 공간 구조 학습
  2. Cross-Entropy Loss:
    
    예측 확률 분포 vs 실제 라벨 분포 차이를 최소화 → 분류 성능 강화
  3. CLIP 맥락:
    
    (이미지, 텍스트) 쌍을 Contrastive Learning으로 학습,
    
    해당 학습 과정의 목표 함수를 Cross-Entropy로 설정하여 유사도 스케일링
- N개의 (image, text) 쌍에서 positive pair와 negative pair 구분.
- Cosine similarity를 사용하여:
  - Positive pair 유사도: 최대화.
  - Negative pair 유사도: 최소화.
- Cross-entropy loss로 학습.

단순화된 학습 구조:
- Multi-modal embedding을 위해 linear projection만 사용.
- 데이터 증강은 이미지 크기 변환만 수행.

2.4. Choosing and Scaling a Model

Image Encoder:
- ResNet-D: Attention Pooling으로 수정.
- Vision Transformer(ViT): 의 원본 그대로 사용(추가 LN만 적용).
Text Encoder:
- Transformer 사용.
- Max length = 76으로 제한. 실제 구현에선 마지막 token 고려해 77 설정.
효율적 모델 스케일링:
- ResNet: 폭, 깊이, 해상도를 균등하게 증가.
- Text Encoder: 폭만 증가.

2.5. Training

모델 종류:
- ResNet-50, ResNet-101, RN50x4, RN50x16, RN50x64.
- ViT-B/32, ViT-B/16, ViT-L/14.
Training 설정:
- 32 epochs 학습.
- Optimizer: Adam.
- Scheduler: Cosine decay.
- Temperature parameter τ: 학습 중 최적화.

3. Experiments

3.1. Zero-Shot Transfer

Zero-shot 분류 방식:
- 이미지와 모든 클래스 이름을 텍스트로 변환한 뒤 cosine similarity(유사도) 기반 분류.
- 예: "A photo of a {class}."
Prompt Engineering:
- 텍스트 템플릿을 다양화하여 성능 개선.
- 예: "A satellite photo of a {class}."
Zero-shot 성능:
- Stanford Cars, Food101: SOTA 성능 초과.
- EuroSAT, RESISC45: 특수한 데이터셋에서는 낮은 성능. → 도메인 특수성이 원인.

3.2. Representation Learning

CLIP은 효율적인 image representation 학습.
Linear probe(선형 분류기) 성능:
- ResNetx64, ViT-L/14 모델에서 기존 SOTA 초과.

3.3. Robustness to Natural Distribution Shift

Distribution shift 문제에서 높은 성능:
- 다양한 데이터 분포에서 일반화 성능 우수.

4. Comparison to Human Performance

CLIP은 일부 task에서 인간 수준의 성능을 보였으나, domain-specific task에서는 한계.

5. Data Overlap Analysis

WIT 데이터셋과 실험에 사용된 데이터셋 간의 중복 여부 분석:
- 일부 데이터셋에서 작은 중복 발견.

6. Limitations

Domain-specific 데이터셋에서 낮은 성능.
텍스트와 이미지 쌍의 품질이 모델 성능에 큰 영향을 미침.

7. Broader Impacts

7.1. Bias

인터넷 데이터셋 기반 학습으로 인해 편향 문제 존재.

7.2. Surveillance

대규모 데이터 모델이 감시 기술에 악용될 가능성.

7.3. Future Work

다양한 도메인을 아우르기 위한 연구 필요.
모델 해석 가능성(Explainability) 및 편향 완화 기법 연구 중요.

8. Related Work

이미지-텍스트 멀티모달 학습의 역사적 발전 경향.
VirTex, ConVIRT 등 이전 방법론과의 비교.

9. Conclusion

CLIP은 대규모 (이미지, 텍스트) 데이터와 자연어 supervision을 통해 강력한 zero-shot 성능을 달성.
다양한 비전 태스크에서 기존 기법을 능가하거나 비슷한 결과를 냄.
향후 도메인 편향 및 사회적 영향을 고려한 연구 필요.

'Paper Review > Computer Vision' 카테고리의 다른 글

[OUTTA Alpha팀 논문 리뷰] Part 8-4. Swin-UNet: Unet-like Pure Transformer for Medical Image Segmentation (0)	2025.01.25
[OUTTA Alpha팀 논문 리뷰 요약] Part 7-5. DiT: Scalable Diffusion Models with Transformers (0)	2025.01.19
[OUTTA Alpha팀 논문 리뷰 요약] Part 7-4. Towards Robust Vision Transformer (0)	2025.01.19
[OUTTA Alpha팀 논문 리뷰 요약] Part 5-4. ViT (1)	2025.01.03
[OUTTA Alpha팀 논문 리뷰 요약] Part 5-3. Transformer: Attention Is All You Need (0)	2025.01.03

현재글[OUTTA Alpha팀 논문 리뷰 요약] Part 6-1. CLIP: Learning Transferable Visual Models From Natural Language Supervision

연주의 공부 기록

Medical Image AI & CV 내가 보려고 만든 블로그💻 논문 & 코드 리뷰 및 이론 정리. * 논문 리뷰 요약은 흐름 파악용.

pytorch, instantstyle, fami, keras, sleap, deep-emotion, classification, gpt-neox-20b, 의학영상처리, transformer, LSTM, srdiff, Distillation, ip-adapter, sr3, votenet, regression, maisi, voxelmorph, RNN,

Today :
Yesterday :

일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

연주의 공부 기록