Paper Review/Computer Vision

[OUTTA Alpha팀 논문 리뷰 요약] Part 6-1. CLIP: Learning Transferable Visual Models From Natural Language Supervision

YeonJuJeon 2025. 1. 7. 21:21

 

논문 링크: Learning Transferable Visual Models From Natural Language Supervision

 

 

OUTTA 논문 리뷰 링크:


0. Abstract

  • 기존 SOTA Computer Vision 시스템은 고정된 object category에만 대응하며, 확장성과 일반성을 저해.
  • CLIP은 인터넷에서 얻은 4억 개의 이미지-텍스트 쌍을 학습하여 zero-shot 학습이 가능하도록 설계.
  • 다양한 downstream task에 적용 가능하며, OCR, action recognition 등 30개 이상 task에서 높은 성능을 달성.

1. Introduction and Motivating Work

  • NLP 분야의 발전 사례:
    • BERT, GPT는 대규모 텍스트 데이터로 pre-training 후 fine-tuning 방식 사용.
    • Task-agnostic 모델은 다양한 task에서 zero-shot transfer 가능.
  • Computer Vision의 한계:
    • CNN 기반 모델은 성능은 뛰어나지만 zero-shot 학습에서는 낮은 정확도.
    • Weak supervised learning은 일부 성과를 보였으나 유연성이 부족.
  • CLIP의 제안:
    • 이미지와 텍스트를 multimodal 학습하여 다양한 vision task에서 좋은 결과를 달성.

2. Approach

2.1. Natural Language Supervision

  • 자연어 supervision의 장점:
    1. 별도의 라벨링 작업 없이 대규모 데이터 학습 가능.
    2. 언어와 이미지 모두를 학습하여 multi-modal embedding 획득 및 zero-shot transfer를 유연하게 지원.
  • 기존 연구는 자연어 complexity로 어려움이 있었으나, 개선된 접근법을 통해 효율적 학습 가능.

2.2. Creating a Sufficiently Large Dataset

  • 기존 데이터셋 한계:
    • MS-COCO, Visual Genome: 고품질이지만 데이터 크기가 작음.
    • YFCC100M: 대규모지만 품질이 들쑥날쑥.
  • CLIP의 WIT 데이터셋:
    • 4억 개의 (image, text) 쌍으로 구성된 데이터셋을 인터넷에서 수집.

2.3. Selecting an Efficient Pre-Training Method

  • Contrastive Learning 방식 채택:
    • ▼ CL(Contrastive Learning), CE(Cross Entropy) 설명
    • 더보기

      Contrastive Learning (CL)

      • 정의:
        • 유사한 샘플(positive pair)은 임베딩 공간에서 가깝게,
        • 다른 샘플(negative pair)은 멀어지게 학습하는 기법
      • 목적:
        • 이미지·텍스트 등 다른 모달 간 관계를 효과적으로 학습
        • 라벨이 제한적인 환경에서도 데이터 구조 파악 가능
      • 장점:
        • 추가 라벨이 없어도 pair 정보만으로 학습 가능
        • 모달 간 표현학습(multimodal learning)에 특히 유용
      • 사용 예:
        • CLIP에서 (이미지, 텍스트) 쌍의 유사도(positive pair)를 높이고
          나머지(negative pair)의 유사도는 낮추기 위해 활용

      Cross-Entropy (교차 엔트로피) Loss

      • 정의:
        • 분류 문제에서 예측 확률 분포와 실제 라벨(원핫 벡터) 분포 간의 거리를 측정하는 지표
      • 동작 방식:
        • 정답 라벨의 예측 확률을 크게,
        • 오답 라벨의 예측 확률을 작게 만드는 방향으로 파라미터를 업데이트
      • 장점:
        • 수학적으로 간단하고, 분포 간 차이를 직접 계산 가능
        • 대부분의 분류 문제에서 표준 손실 함수로 활용
      • 사용 예:
        • CLIP의 Contrastive Learning에서 배치 내 모든 (이미지, 텍스트) 쌍에 대해
          Cross-Entropy Loss를 계산 → Positive pair는 높은 확률(=유사도), Negative pair는 낮은 확률로 학습

      핵심 요점

      1. Contrastive Learning:
        • 비슷한 쌍은 가까이, 다른 쌍은 멀리임베딩 공간 구조 학습
      2. Cross-Entropy Loss:
        • 예측 확률 분포 vs 실제 라벨 분포 차이를 최소화 → 분류 성능 강화
      3. CLIP 맥락:
        • (이미지, 텍스트) 쌍을 Contrastive Learning으로 학습,
        • 해당 학습 과정의 목표 함수를 Cross-Entropy로 설정하여 유사도 스케일링
       
    • N개의 (image, text) 쌍에서 positive pairnegative pair 구분.
    • Cosine similarity를 사용하여:
      • Positive pair 유사도: 최대화.
      • Negative pair 유사도: 최소화.
    • Cross-entropy loss로 학습.
  • 단순화된 학습 구조:
    • Multi-modal embedding을 위해 linear projection만 사용.
    • 데이터 증강은 이미지 크기 변환만 수행.

2.4. Choosing and Scaling a Model

  • Image Encoder:
    • ResNet-D: Attention Pooling으로 수정.
    • Vision Transformer(ViT): 의 원본 그대로 사용(추가 LN만 적용).
  • Text Encoder:
    • Transformer 사용.
    • Max length = 76으로 제한. 실제 구현에선 마지막 token 고려해 77 설정.
  • 효율적 모델 스케일링:
    • ResNet: 폭, 깊이, 해상도를 균등하게 증가.
    • Text Encoder: 폭만 증가.

2.5. Training

  • 모델 종류:
    • ResNet-50, ResNet-101, RN50x4, RN50x16, RN50x64.
    • ViT-B/32, ViT-B/16, ViT-L/14.
  • Training 설정:
    • 32 epochs 학습.
    • Optimizer: Adam.
    • Scheduler: Cosine decay.
    • Temperature parameter τ: 학습 중 최적화.

3. Experiments

3.1. Zero-Shot Transfer

  • Zero-shot 분류 방식:
    • 이미지와 모든 클래스 이름을 텍스트로 변환한 뒤 cosine similarity(유사도) 기반 분류.
    • 예: "A photo of a {class}."
  • Prompt Engineering:
    • 텍스트 템플릿을 다양화하여 성능 개선.
    • 예: "A satellite photo of a {class}."
  • Zero-shot 성능:
    • Stanford Cars, Food101: SOTA 성능 초과.
    • EuroSAT, RESISC45: 특수한 데이터셋에서는 낮은 성능. → 도메인 특수성이 원인.

3.2. Representation Learning

  • CLIP은 효율적인 image representation 학습.
  • Linear probe(선형 분류기) 성능:
    • ResNetx64, ViT-L/14 모델에서 기존 SOTA 초과.

3.3. Robustness to Natural Distribution Shift

  • Distribution shift 문제에서 높은 성능:
    • 다양한 데이터 분포에서 일반화 성능 우수.

4. Comparison to Human Performance

  • CLIP은 일부 task에서 인간 수준의 성능을 보였으나, domain-specific task에서는 한계.

5. Data Overlap Analysis

  • WIT 데이터셋과 실험에 사용된 데이터셋 간의 중복 여부 분석:
    • 일부 데이터셋에서 작은 중복 발견.

6. Limitations

  • Domain-specific 데이터셋에서 낮은 성능.
  • 텍스트와 이미지 쌍의 품질이 모델 성능에 큰 영향을 미침.

7. Broader Impacts

7.1. Bias

  • 인터넷 데이터셋 기반 학습으로 인해 편향 문제 존재.

7.2. Surveillance

  • 대규모 데이터 모델이 감시 기술에 악용될 가능성.

7.3. Future Work

  • 다양한 도메인을 아우르기 위한 연구 필요.
  • 모델 해석 가능성(Explainability) 및 편향 완화 기법 연구 중요.

8. Related Work

  • 이미지-텍스트 멀티모달 학습의 역사적 발전 경향.
  • VirTex, ConVIRT 등 이전 방법론과의 비교.

9. Conclusion

  • CLIP대규모 (이미지, 텍스트) 데이터자연어 supervision을 통해 강력한 zero-shot 성능을 달성.
  • 다양한 비전 태스크에서 기존 기법을 능가하거나 비슷한 결과를 냄.
  • 향후 도메인 편향사회적 영향을 고려한 연구 필요.