Paper Review/Generative AI

[OUTTA Alpha팀 논문 리뷰] Part 8-2. SRGAN: Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network

YeonJuJeon 2025. 1. 25. 00:05

논문 링크: https://arxiv.org/pdf/1609.04802.pdf


1. Abstract & Introduction

배경 및 문제점

  • 기존 초해상도(SR) 모델은 주로 CNN을 사용하며, MSE 기반 손실 함수를 통해 PSNR 개선에 집중해 왔음.
  • 그러나 MSE는 고해상도 이미지를 만들 때 사람의 지각(perceptual) 능력을 반영하기 어렵고, 고주파수 디테일(finer texture)을 복원하기에 부적합.
  • 예를 들어, 이미지가 1픽셀 평행 이동만 되어도, 사람은 비슷해 보이지만 MSE는 크게 달라진 값으로 계산하여 스무딩(smoothing) 현상 발생.

핵심 아이디어

  • 사람이 느끼는 지각적 고화질(perceptual quality)을 재현하기 위해,
    1. GAN 구조(SRGAN): 진짜 같은 이미지를 생성하도록 생성자-판별자를 학습
    2. 지각적 손실 함수(Perceptual Loss):
      • Adversarial Loss(GAN 생성자 손실)
      • Content Loss(VGG19로부터 추출된 Feature Map 간의 MSE)
    3. 새로운 평가 방식(MOS): PSNR 대신 사람의 주관 평가(1~5점)를 활용

이로써 고주파수 질감을 복원하며, 사람이 보기에 고해상도처럼 느껴지는 이미지를 생성 가능함.


2. Method

(1) 학습 데이터 구성

  • 고해상도(HR) 이미지를 가우시안 필터 + 다운샘플하여 저해상도(LR) 이미지를 생성
  • (LR, HR) Paired Data로 학습
  • $r = 4$ 배로 축소하여, 4× 업스케일 문제 설정

(2) SRGAN의 목적 함수

(a) 판별자(Discriminator) 손실

판별자(Discriminator)의 목적 함수

  • 일반적인 GAN과 동일하게 진짜 이미지는 1, 가짜 이미지는 0으로 분류하도록 학습
  • $$\max_D \, \Bigl[\log D(\text{I}_{HR}) + \log(1 - D(\text{I}_{SR}))\Bigr]$$

(b) 생성자(Generator) 손실

생성자(Generator)의 목적 함수

  1. Adversarial Loss
    • 판별자를 속여서 진짜 같은 고해상도 이미지를 만들어내도록 유도
  2. Content Loss(VGG Loss)
    • 사전 학습된 VGG19의 중간 레이어에서 뽑은 Feature Map 간의 MSE
    • 가짜 $\text{I}_{SR}$와 진짜 $\text{I}_{HR}$의 ‘지각적 차이’를 최소화

따라서 최종 지각적 손실

$$\mathcal{L}_{\text{SRGAN}} = \mathcal{L}_{\text{content}} + \lambda \,\mathcal{L}_{\text{adversarial}},$$

와 같은 가중치 합으로 구성됨.

(3) SRGAN 아키텍처

(a) 생성자(Generator)

  • Residual Blocks(3×3 Conv, Skip Connection) + PixelShuffler(×2 업스케일) 2개 → 결과적으로 4× 업스케일
  • 맨 마지막에 Upsampling을 수행해 연산량 절감
  • PReLU 활성함수, Batch Normalization 등 사용

(b) 판별자(Discriminator)

  • 3×3 필터, 점차 증가하는 채널(64→128→256→512)
  • 마지막에 Dense + Sigmoid로 이진 분류
  • 실용적 구현에 따라 Dense Layer 대신 Global Pooling 대체 가능

3. Experiments

(1) 학습 설정

  • ImageNet에서 임의 샘플한 약 35만 장으로 학습, Set5·Set14·BSD100 등으로 테스트
  • 다운샘플(4×)로 LR 이미지 생성, HR 이미지는 96×96 Crop
  • 최적화: Adam($\beta_1=0.9$)
  • SRResNet(백만 iteration) → 이후 SRGAN(총 20만 iteration) 단계적 학습
  • 생성자, 판별자 교대로 학습(k=1)

(2) 평가 방식

  • MOS(Mean Opinion Score): 26명 평가자가 1~5점으로 점수 매김
  • 기존 PSNR/SSIM은 MSE 기반이라, 지각적 품질을 반영하지 못한다는 문제를 지적

(3) 결과

  • SRGAN이 기존 기법보다 미세 질감 표현 우수
  • MOS 점수에서 SRGAN-VGG54 버전이 가장 높은 점수 획득
  • PSNR은 다소 낮을 수 있으나, 사람이 보기엔 더 고화질에 가깝게 인지

4 & 5. Discussion, Future Work & Conclusion

  1. Residual Network 기반의 SRResNet을 통해 SOTA 달성 → MSE 기반 측정(PSNR) 개선
  2. GAN + VGG Loss를 결합한 SRGAN지각적 품질 측면에서 큰 도약
  3. 4× 업스케일링에서 SRGAN이 가장 현실감 있고, 사람의 선호도가 높은 이미지 생성
  4. 향후에는 업스케일 팩터를 더욱 키우거나, 다른 perceptual 손실·컨디셔닝 방법까지 고려 가능
  5. 저자들은 “최적의 손실 함수는 ‘해상도 목표·응용 분야’에 따라 달라질 수 있음”을 언급

요약

  • 문제의식: 기존 SR 기법은 MSE에 치중 → 고주파 디테일지각적 품질이 부족.
  • 핵심 기여:
    1. GAN을 활용한 SRGAN 아키텍처로 4× 업스케일링 구현
    2. 지각적 손실(Perceptual Loss)Adversarial Loss + VGG Loss 사용
    3. PSNR/SSIM 대신 MOS를 통해 사람이 느끼는 품질 평가
  • 결론:
    • SRGAN은 인간 시각적 선호도를 반영한 고화질·고주파 디테일 복원에 성공, 초해상도 분야의 한계를 크게 개선.