[OUTTA Alpha팀 논문 리뷰 요약] Part 5-1. SENet: Squeeze-and-Excitation Networks

Paper Review/Deep Learning

[OUTTA Alpha팀 논문 리뷰 요약] Part 5-1. SENet: Squeeze-and-Excitation Networks

YeonJuJeon 2025. 1. 3. 18:27

논문 링크: 1709.01507

OUTTA 논문 리뷰 링크: [2024-2] 박지원- SENet(Squeeze-and-Excitation Networks)

[2024-2] 박지원- SENet(Squeeze-and-Excitation Networks)

#Squeeze-and-Excitation Networks (2017) Paper ) https://arxiv.org/abs/1709.01507 Squeeze-and-Excitation NetworksThe central building block of convolutional neural networks (CNNs) is the convolution operator, which enables networks to construct informat

blog.outta.ai

1. Introduction

기존의 CNN은 지역적인 수용 영역 내에서 공간적 및 채널 정보를 융합하여 특징을 추출함.
그러나 대부분의 연구는 공간적 관계에 집중하였으며, 채널 간 상호의존성에 대한 연구는 부족했음.
이에 저자들은 채널 간 관계를 명시적으로 모델링하여 네트워크의 표현력을 향상시키고자 함.

2. Related Work

VGGNet, Inception 모델 등은 네트워크를 깊게 하여 성능을 향상시킴.
Batch Normalization(BN)은 레이어 입력을 정규화하여 그래디언트 전파를 향상시킴.
ResNet은 스킵 커넥션을 통해 효율성을 보임.
이전 연구에서는 모델의 크기와 계산량을 줄이기 위해 채널 간 상호작용을 다루었으나, 이는 주로 지역적인 수용 영역에서 인스턴스에 무관한 함수의 조합으로 정의되었음.
본 논문에서는 SE 블록이 글로벌 정보를 사용하여 채널 간 비선형 의존성을 명시적으로 모델링하여 학습을 용이하게 하고 네트워크의 표현력을 향상시킬 수 있음을 주장함.

3. Squeeze-and-Excitation Networks

1. Squeeze 단계

목적: 입력 특징 맵의 공간 정보를 채널 차원으로 압축.
과정:
- 입력 특징 맵 $\mathbf{U} \in \mathbb{R}^{H \times W \times C}$를 받음. 여기서 $H, W$는 공간적 크기, $C$는 채널 수.
- 각 채널에 대해 글로벌 평균 풀링(Global Average Pooling, GAP)을 수행: $z_c = \frac{1}{H \times W} \sum_{i=1}^{H} \sum_{j=1}^{W} u_{c}(i,j)$는 채널 디스크립터로, 각 채널의 전역적인 공간 정보를 나타냄.
- 결과적으로$H \times W$ 공간 정보가 $1 \times 1 \times C$로 압축됨.

2. Excitation 단계

목적: Squeeze 단계에서 얻은 채널 디스크립터를 통해 각 채널의 중요도를 학습.
과정:
- 채널 디스크립터 $z$를 입력으로 받아 두 개의 완전 연결(FC) 레이어를 통과:
  - 첫 번째 FC 레이어: $$s=\sigma(\mathbf{W_2} \delta(\mathbf{W_1} z))$$
    - $\mathbf{W_1}$: FC 레이어의 가중치로 $\mathbb{R}^ {C \times \frac{C}{r}}$ , $r$은 감소 비율(reduction ratio, 기본값 16).
    - $\delta$: ReLU 활성화 함수.
    - $\mathbf{W_2}$: FC 레이어의 가중치로 $\mathbb{R}^{\frac{C}{r} \times C}$.
    - $\sigma$: 시그모이드 활성화 함수로, 결과를 [0,1] 범위로 정규화.
- 출력 $s \in \mathbb{R}^C$는 각 채널의 중요도를 나타내는 가중치.

3. Scale 단계

목적: Excitation 단계에서 계산된 채널 중요도를 입력 특징 맵에 반영.
과정:
- 입력 특징 맵 $\mathbf{U}$의 각 채널을 중요도 ss와 곱하여 재조정된 특징 맵 $\mathbf{X}$ 를 생성: $x_c = s_c \cdot u_c$
- $\mathbf{X} \in \mathbb{R}^{H \times W \times C}$는 강조된 채널 정보로 구성된 출력.

4. SE 블록의 통합

SE 블록은 기존 CNN의 다양한 레이어(예: Residual 블록, Inception 모듈 등)에 삽입 가능.
예:
- Residual 블록의 출력에 SE 블록을 추가하여 SE-ResNet 구성.
- Inception 모듈 뒤에 SE 블록을 추가하여 SE-Inception 구성.

5. 주요 특징

전역적 정보 사용: Squeeze 단계에서 전체 특징 맵의 공간적 정보를 활용.
효율성: 계산 복잡도는 상대적으로 낮으며, 메모리 사용량 증가도 제한적.
유연성: 다양한 CNN 아키텍처에 쉽게 통합 가능.

4. Experiments

ImageNet 데이터셋 실험:
- SE-ResNet-50은 기존 ResNet-50보다 낮은 오류율을 기록하며 성능 향상을 입증함.
- SE 블록을 적용한 모델은 ILSVRC 2017 분류 대회에서 1위를 차지하며, top-5 오류율을 2.251%로 낮추는 성과를 보임.
다양한 아키텍처에의 적용:
- SE 블록은 VGGNet, ResNet, Inception 등 다양한 모델에 적용 가능하며, 일관된 성능 향상을 보임.

5. Conclusion

SE 블록은 구조가 단순하면서도 다양한 아키텍처에 적용 가능하며, 계산 복잡도를 크게 증가시키지 않으면서도 성능을 향상시킬 수 있는 효율적인 모듈로 평가됨.
채널 간 상호의존성을 명시적으로 모델링하는 것이 네트워크의 표현력과 성능 향상에 중요함을 보여줌.

'Paper Review > Deep Learning' 카테고리의 다른 글

[OUTTA Alpha팀 논문 리뷰 요약] Part 7-1. WRN: WideResNet (0)	2025.01.18
[OUTTA Alpha팀 논문 리뷰 요약] Part 6-3. TCN: AnEmpirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling (0)	2025.01.11
[OUTTA Alpha팀 논문 리뷰 요약] Part 4-3. GCN (Graph Convolutional Networks) (0)	2024.12.29
[OUTTA Alpha팀 논문 리뷰 요약] Part 4-1. Learning Transferable Architectures for Scalable Image Recognition, MnasNet: Platform-Aware Neural Architecture Search for Mobile (0)	2024.12.29
[OUTTA Alpha팀 논문 리뷰 요약] Part 2-4. Optimizer의 종류와 특성 (0)	2024.12.28

현재글[OUTTA Alpha팀 논문 리뷰 요약] Part 5-1. SENet: Squeeze-and-Excitation Networks

연주의 공부 기록

Medical Image AI & CV 내가 보려고 만든 블로그💻 논문 & 코드 리뷰 및 이론 정리. * 논문 리뷰 요약은 흐름 파악용.

instantstyle, ip-adapter, gpt-neox-20b, classification, deep-emotion, sleap, pytorch, fami, LSTM, keras, regression, RNN, Distillation, voxelmorph, maisi, srdiff, votenet, 의학영상처리, sr3, transformer,

Today :
Yesterday :

연주의 공부 기록