[OUTTA Alpha팀 논문 리뷰] Part 8-3. SRCNN, ESRGAN

Paper Review/Generative AI

[OUTTA Alpha팀 논문 리뷰] Part 8-3. SRCNN, ESRGAN

YeonJuJeon 2025. 1. 25. 00:38

SRCNN 논문 링크: https://arxiv.org/abs/1501.00092

Image Super-Resolution Using Deep Convolutional Networks

We propose a deep learning method for single image super-resolution (SR). Our method directly learns an end-to-end mapping between the low/high-resolution images. The mapping is represented as a deep convolutional neural network (CNN) that takes the low-re

arxiv.org

ESRGAN 논문 링크: [1809.00219] ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks

ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks

The Super-Resolution Generative Adversarial Network (SRGAN) is a seminal work that is capable of generating realistic textures during single image super-resolution. However, the hallucinated details are often accompanied with unpleasant artifacts. To furth

arxiv.org

(1) SRCNN은 딥러닝 기반 초해상도(Super-Resolution) 모델의 시작점으로,
(2) ESRGAN은 SRGAN을 향상시킨 모델로 보다 사실적인(Perceptually Pleasing) 이미지 복원을 목표로 함.

1. SRCNN (ECCV 2014)

1.1 배경 및 의의

SR(Super Resolution)은 저해상도 이미지를 고해상도로 복원하는 전통적인 문제로, 예전에는 예시 기반(example-based), sparse coding 등을 사용.
SRCNN은 간단한 CNN 구조만으로도 기존 전통 방법(bicubic, sparse coding 등)을 뛰어넘는 성능 및 속도를 달성.
이후 등장하는 딥러닝 기반 SR 모델들의 시초가 됨.

1.2 모델 구조

Bicubic Upsampling (전처리)
- 원본 RGB 이미지를 YCbCr로 바꾸고 Y 채널만 사용하기
- 저해상도 이미지를 미리 원하는 해상도로 2×, 3×, 4× 등으로 보간(upscale)
3단계 CNN
- (1) Patch extraction & representation
  - 첫 번째 Conv+ReLU 레이어가 저해상도 이미지로부터 국소(패치) 특징을 추출, 고차원 벡터로 표현
- (2) Non-linear mapping
  - 두 번째 Conv+ReLU 레이어가 앞 단계의 특징을 다른 고차원 표현으로 매핑
- (3) Reconstruction
  - 세 번째 Conv 레이어가 이 표현들을 합쳐 최종 고해상도 이미지를 복원

결과적으로, “Input → Conv+ReLU → Conv+ReLU → Conv → Output” 형태의 얕은 CNN 구조
CNN 관점에서 본 sparse coding method

1.3 학습 및 손실 함수

MSE(Mean Squared Error) 기반 손실
학습 시, 원본 이미지를 sub-image(패치)로 잘라 사용
평가 지표: PSNR, SSIM(특히 Y 채널 위주)
- MSE 및 PSNR

1.4 실험 결과

속도 & 정확도
- 기존 Sparse coding, Bicubic, 다른 전통 기법 대비 PSNR과 실행 속도 모두 우수
- CPU에서도 빠른 복원이 가능
특징
- 모델이 간단한 구조이지만 고성능
- 더 큰 데이터셋에서 학습할수록 성능이 증가
- 1채널(Y)뿐 아니라 RGB 3채널 전체도 처리 가능

2. ESRGAN (2018)

2.1 배경

SRGAN(2017)에서 GAN + VGG Loss를 결합해 지각적 품질(Perceptual Quality)을 크게 향상했으나,
- 여전히 HR 이미지와 비교 시 질감 표현이 부족, artifact 발생 가능
ESRGAN은 SRGAN을 Residual-in-Residual Dense Block, Relativistic GAN, 수정된 Perceptual Loss 등으로 개선해 더 사실적인 디테일을 생성

2.2 주요 기법

(1) Residual-in-Residual Dense Block (RRDB)

배치정규화(BN) 제거
- - 트레이닝·테스트 세트의 통계 차이로 인한 artifact 방지 & 연산량 절감
  - BN이 에지(edge) 표현 등에서 range flexibility를 떨어뜨려 부드럽게(blurry) 되는 문제 회피
Dense connection과 Residual connection을 중첩
- 더 깊은 표현 학습, 풍부한 특징 추출
- SRResNet 구조에서 블록만 대체 → “RRDB”로 구성된 깊은 네트워크

(2) Relativistic GAN

기존의 GAN 판별자는 “이 이미지가 Real or Fake?”만 판단
Relativistic 평균 GAN(RaGAN)은 “이 가짜가 Real보다 얼마나 진짜 같은가” 식으로 정의
- Real 샘플도 생성자 업데이트 시 영향을 주어, 더 풍부한 시각적 품질 유도
- 결과적으로 디테일이 선명해지고, texture가 자연스러워짐

(3) Perceptual Loss 개선

이전 SRGAN: VGG19의 activation 이후 Feature Map 사용
- (상) before activation, (하) after activation
- 심층 레이어 → 특징 희박화(sparsity) 발생, supervision이 약해지는 문제
ESRGAN: activation 이전 Feature Map 사용
- 더 강력한 gradient 전달, 밝기 복원에도 유리
일부 실험에서는 classification용 VGG 대신 material recognition으로 미세조정된 VGG 사용 → 디테일 개선

(4) Network Interpolation

GAN 기반 학습 시, Perceptual Quality는 좋으나 artifact가 생길 수 있음
PSNR-oriented 가중치($\theta_{\text{PSNR}}$)와 GAN-oriented 가중치($\theta_{\text{GAN}}$)를 가중 조합
- 사용자 선호도에 따라 α\alpha를 조절해 디테일 vs. 안정성 균형

2.3 Total Loss

- $\mathcal{L}_{1}$: 초기 학습 단계에서 L1로 지역 최적화 회피 및 안정적 학습
- $\mathcal{L}_{\text{RaGAN}}$: Relativistic 판별자의 손실
- $\mathcal{L}_{\text{Perceptual}}$: VGG19(activation 이전) Feature Map 기준 차이

2.4 실험 결과

벤치마크(DIV2K 등)에서 PSNR, SSIM은 무조건 최고는 아니지만,
- 시각적으로 훨씬 세밀하고 선명한 질감 표현
GAN 기반 모델 특성상 “객관 척도”와 “주관 척도(시각적 품질)” 사이 트레이드오프 존재 → ESRGAN은 주관적으로 더 선호됨

3. 비교 요약

구분	SRCNN	SRGAN
발표 시기	ECCV 2014	2018 (SRGAN 후속)
주요 특징	- 딥러닝 기반 SR 시초 - 간단한 3레이어 CNN	- SRGAN 개선판 - RRDB 블록 + Relativistic GAN + 새로운 Perceptual Loss
손실 함수	- MSE	- RaGAN Loss + VGG19(activation 이전) + L1
장점	- 연산 빠름, 구조 간단 - 전통 기법 대비 높은 PSNR	- 더 세밀한 디테일 - 시각적으로 “사람이 보기에” 고품질
한계	- 지각적 품질 부족 - 고주파 부분 스무딩	- PSNR, SSIM은 낮을 수 있음 - GAN 특성의 artifact 가능

4. 결론

SRCNN은 딥러닝 기반 초해상도의 시초로, 전통 방법을 모두 뛰어넘는 간단하지만 고성능 모델을 제안.
이후 GAN 기법이 도입되며 SRGAN, 그리고 더욱 개선된 ESRGAN이 등장해, 지각적 품질(Perceptual Quality)을 대폭 향상.
ESRGAN은 BN 제거, Residual-in-Residual Dense Block, Relativistic GAN, 수정된 Perceptual Loss 등을 통해 시각적으로 가장 자연스러운 SR 결과를 보여줌.

정리하자면,

SRCNN: “딥러닝 기반으로 SR 전 과정을 통합적으로 학습” → 전통 방법보다 뛰어난 PSNR, 속도도 빠름.

ESRGAN: “SRGAN을 한층 발전” → 실제와 가까운 디테일, Perceptual Quality를 크게 개선하여 고화질 초해상도에 탁월.

이로써 Super-Resolution 분야는 “객관 척도(PSNR/SSIM) vs. 지각 척도(Perceptual Quality)”라는 두 축에서 연구가 활발해졌으며, ESRGAN은 아직도 시각적으로 가장 선호되는 SR 모델 중 하나로 꼽힘.

'Paper Review > Generative AI' 카테고리의 다른 글

[OUTTA Alpha팀 논문 리뷰] Part 8-2. SRGAN: Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network (0)	2025.01.25
[OUTTA Alpha팀 논문 리뷰] Part 8-1. LCM: Latent Consistency Models: Synthesizing High-Resolution Images with Few-Step Inference (0)	2025.01.24
[OUTTA Alpha팀 논문 리뷰] LDM: High-Resolution Image Synthesis with Latent Diffusion (0)	2025.01.17
[OUTTA Alpha팀 논문 리뷰 요약] Part 6-2. DDIM: Denoising Diffusion Implicit Model (0)	2025.01.11
[OUTTA Alpha팀 논문 리뷰 요약] Part 5-6. DCGAN, Cycle GAN, LSGAN( + PGGAN, StyleGAN) (0)	2025.01.03

현재글[OUTTA Alpha팀 논문 리뷰] Part 8-3. SRCNN, ESRGAN

연주의 공부 기록

Medical Image AI & CV 내가 보려고 만든 블로그💻 논문 & 코드 리뷰 및 이론 정리. * 논문 리뷰 요약은 흐름 파악용.

keras, deep-emotion, instantstyle, srdiff, sleap, Distillation, pytorch, votenet, voxelmorph, regression, sr3, gpt-neox-20b, LSTM, 의학영상처리, transformer, fami, RNN, classification, maisi, ip-adapter,

Today :
Yesterday :

연주의 공부 기록

[OUTTA Alpha팀 논문 리뷰] Part 8-3. SRCNN, ESRGAN