Paper Review/Deep Learning

[OUTTA Alpha팀 논문 리뷰 요약] Part 5-1. SENet: Squeeze-and-Excitation Networks

YeonJuJeon 2025. 1. 3. 18:27

논문 링크: 1709.01507

 

OUTTA 논문 리뷰 링크: [2024-2] 박지원- SENet(Squeeze-and-Excitation Networks)

 

[2024-2] 박지원- SENet(Squeeze-and-Excitation Networks)

#Squeeze-and-Excitation Networks (2017) Paper ) https://arxiv.org/abs/1709.01507  Squeeze-and-Excitation NetworksThe central building block of convolutional neural networks (CNNs) is the convolution operator, which enables networks to construct informat

blog.outta.ai


1. Introduction

  • 기존의 CNN은 지역적인 수용 영역 내에서 공간적 및 채널 정보를 융합하여 특징을 추출함.
  • 그러나 대부분의 연구는 공간적 관계에 집중하였으며, 채널 간 상호의존성에 대한 연구는 부족했음.
  • 이에 저자들은 채널 간 관계를 명시적으로 모델링하여 네트워크의 표현력을 향상시키고자 함.

2. Related Work

  • VGGNet, Inception 모델 등은 네트워크를 깊게 하여 성능을 향상시킴.
  • Batch Normalization(BN)은 레이어 입력을 정규화하여 그래디언트 전파를 향상시킴.
  • ResNet은 스킵 커넥션을 통해 효율성을 보임.
  • 이전 연구에서는 모델의 크기와 계산량을 줄이기 위해 채널 간 상호작용을 다루었으나, 이는 주로 지역적인 수용 영역에서 인스턴스에 무관한 함수의 조합으로 정의되었음.
  • 본 논문에서는 SE 블록이 글로벌 정보를 사용하여 채널 간 비선형 의존성을 명시적으로 모델링하여 학습을 용이하게 하고 네트워크의 표현력을 향상시킬 수 있음을 주장함.

3. Squeeze-and-Excitation Networks

1. Squeeze 단계

  • 목적: 입력 특징 맵의 공간 정보를 채널 차원으로 압축.
  • 과정:
    • 입력 특징 맵 $\mathbf{U} \in \mathbb{R}^{H \times W \times C}$를 받음. 여기서 $H, W$는 공간적 크기, $C$는 채널 수.
    • 각 채널에 대해 글로벌 평균 풀링(Global Average Pooling, GAP)을 수행: $z_c = \frac{1}{H \times W} \sum_{i=1}^{H} \sum_{j=1}^{W} u_{c}(i,j)$는 채널 디스크립터로, 각 채널의 전역적인 공간 정보를 나타냄.
    • 결과적으로$H \times W$ 공간 정보가 $1 \times 1 \times C$로 압축됨.

2. Excitation 단계

  • 목적: Squeeze 단계에서 얻은 채널 디스크립터를 통해 각 채널의 중요도를 학습.
  • 과정:
    • 채널 디스크립터 $z$를 입력으로 받아 두 개의 완전 연결(FC) 레이어를 통과:
      • 첫 번째 FC 레이어: $$s=\sigma(\mathbf{W_2} \delta(\mathbf{W_1} z))$$
        • $\mathbf{W_1}$: FC 레이어의 가중치로 $\mathbb{R}^ {C \times \frac{C}{r}}$ , $r$은 감소 비율(reduction ratio, 기본값 16).
        • $\delta$: ReLU 활성화 함수.
        • $\mathbf{W_2}$: FC 레이어의 가중치로 $\mathbb{R}^{\frac{C}{r} \times C}$.
        • $\sigma$: 시그모이드 활성화 함수로, 결과를 [0,1] 범위로 정규화.
    • 출력 $s \in \mathbb{R}^C$는 각 채널의 중요도를 나타내는 가중치.

3. Scale 단계

  • 목적: Excitation 단계에서 계산된 채널 중요도를 입력 특징 맵에 반영.
  • 과정:
    • 입력 특징 맵 $\mathbf{U}$의 각 채널을 중요도 ss와 곱하여 재조정된 특징 맵 $\mathbf{X}$ 를 생성: $x_c = s_c \cdot u_c$
    • $\mathbf{X} \in \mathbb{R}^{H \times W \times C}$는 강조된 채널 정보로 구성된 출력.

4. SE 블록의 통합

  • SE 블록은 기존 CNN의 다양한 레이어(예: Residual 블록, Inception 모듈 등)에 삽입 가능.
  • 예:
    • Residual 블록의 출력에 SE 블록을 추가하여 SE-ResNet 구성.
    • Inception 모듈 뒤에 SE 블록을 추가하여 SE-Inception 구성.

5. 주요 특징

  • 전역적 정보 사용: Squeeze 단계에서 전체 특징 맵의 공간적 정보를 활용.
  • 효율성: 계산 복잡도는 상대적으로 낮으며, 메모리 사용량 증가도 제한적.
  • 유연성: 다양한 CNN 아키텍처에 쉽게 통합 가능.

4. Experiments

  • ImageNet 데이터셋 실험:
    • SE-ResNet-50은 기존 ResNet-50보다 낮은 오류율을 기록하며 성능 향상을 입증함.
    • SE 블록을 적용한 모델은 ILSVRC 2017 분류 대회에서 1위를 차지하며, top-5 오류율을 2.251%로 낮추는 성과를 보임.
  • 다양한 아키텍처에의 적용:
    • SE 블록은 VGGNet, ResNet, Inception 등 다양한 모델에 적용 가능하며, 일관된 성능 향상을 보임.


5. Conclusion

  • SE 블록은 구조가 단순하면서도 다양한 아키텍처에 적용 가능하며, 계산 복잡도를 크게 증가시키지 않으면서도 성능을 향상시킬 수 있는 효율적인 모듈로 평가됨.
  • 채널 간 상호의존성을 명시적으로 모델링하는 것이 네트워크의 표현력과 성능 향상에 중요함을 보여줌.