Paper Review/Detection & Segmentation

[딥러닝을 활용한 의료 영상 처리 & 모델 개발] Part 2-4. Resource Optimized Neural Architecture Search for 3D Medical Image Segmentation

YeonJuJeon 2025. 1. 8. 20:28

논문 링크: https://arxiv.org/pdf/1909.005481909.00548


1. Introduction & Abstract

  • Network Architecture Search(NAS)
    • Neural Networks의 최적 구조를 자동으로 탐색하는 방법론
    • Natural image 분야에서 활발히 사용
  • 연구 배경
    • 3D Medical Image Segmentation에 NAS를 적용한 선행 연구가 적음
    • 3D 볼륨 데이터 특성상 시간·계산량이 매우 큼 → 자원(Resource) 문제가 큼
  • 연구 목표
    • 작은 컴퓨팅 자원으로도 3D 의료영상에 NAS를 효율적으로 적용
    • Resource를 최적화하며 최적 세그멘테이션 모델을 찾는 방법 제안

2. Related work

2.1 Why need NAS?

  • 성능 최적화를 위해 기존에는 연구자가 하이퍼파라미터 등을 반복 실험
  • 비효율적이고, 인적·시간 비용이 큼
  • 자동화(AutoML)를 통해 최적 network를 자동 설계 → NAS로 발전

2.2 NAS 구성 요소

  1. Search Space (검색 공간)
    • 어떤 모듈(연산·커널 크기·구조 등)을 탐색할지 정의
  2. Search Strategy (검색 전략)
    • 방대한 Search Space를 빠르게 탐색하기 위한 알고리즘
    • 예) 진화 알고리즘, 강화학습 등
  3. Performance Estimation Strategy (성능 추정)
    • 각 후보 모델(child model)의 성능을 얼마나 빠르고 정확히 측정할지
    • 3D 의료영상은 매우 크므로 시간을 단축하는 기법 필요

2.3 Parameter Sharing (Efficient NAS)

  • Child model 간에 weight를 공유하여 학습비용을 줄임
  • RNN 기반 Controller가 활성화된 경로만 업데이트 → 모든 구조를 한꺼번에 부분 공유
  • 3D 세그멘테이션에서 이 방식을 적용하면 메모리·연산을 크게 절약 가능

3. Method

3.1 Proposed Searching Space

  • RNN 기반 Controller 사용, 3D 의료영상 특성(이방성, 다양한 해상도 등)을 고려
  • 예:
    • 해상도가 매우 다른 여러 형태(4×155×240×240, 1×[90~130]×320×320 등)
    • Dilation rate, Pooling 등으로 receptive field 확장 가능
  • Micro Search로 메모리 사용 절감
    • 큰 모듈 전체가 아닌, 작은 블록 단위로 탐색

3.2 Architecture & Implementation

  • Base: U-Net에서 영감을 받은 Encoder-Decoder 구조
    • Skip connection 시 1×1×1 conv를 사용 → 메모리 절감
    • Depth-wise convolution 적용
  • Searching 과정:
    • NAS가 반복하는 모든 Search Space를 DAG(Directed Acyclic Graph) 형태로 표현
    • ENAS(Efficient NAS) 접근 → Parameter Sharing
    • Controller가 각 Layer(노드)에 어떤 연산(3×3 conv, 5×5 conv, pooling 등)을 택할지 결정
    • Child model은 매번 새로 훈련하지 않고, 공유된 Weight를 일부 재사용

4. Experiment

4.1 데이터셋

  • 다양한 3D 의료영상을 포함하는 공개 데이터 사용 (Brain, Heart, Prostate 등)
  • 5-fold cross validation으로 평가
  • 각 데이터마다 해상도·채널이 달라 Z-score normalization 적용:
    • Image의 mean과 std가 각각 0,1이 되도록 변환 (x –μ) / σ
  • 배경(voxel=0 대부분) 영역을 잘라낸 후 foreground 중심으로 Cropping

4.2 학습 세부 사항

  • Weight decay: 0.001 또는 0.0001, Adam optimizer 사용
  • Controller는 150~500 epoch, Child model은 각 구조마다 3 epoch 학습
  • Child model 첫 학습 시 최대 크기로 수행해 Weight 공유 기반 마련

5. Result

5.1 비교 대상

  • nnU-Net 등 기존 3D 세그멘테이션 SOTA와 비교
  • 제안 모델은 GPU·TTA 사용을 제외해도 더 나은 성능 달성
    • 단일 네트워크로 앙상블 없이도 높은 Dice 등 성능 확보

5.2 추가 분석

  • Entropy와 reward를 추적:
    • 학습 과정에서 Controller의 탐색이 안정적으로 진행 → 최적 구조로 수렴
  • 메모리를 많이 쓰지 않고도 NAS로 고성능 모델 찾는 효과 확인

6. Conclusion

  • 3D Medical Image Segmentation에 특화된 NAS 기법 제안
  • 메모리·속도 측면에서 기존 대비 효율적이며, SOTA 수준 성능 달성
  • 새로운 3D 의료영상 데이터가 들어와도, 자동으로 optimal한 네트워크 구성 가능

요약

이 논문은 3D 의료영상 세그멘테이션에 NAS(Neural Architecture Search)를 자원 효율적으로 적용하는 방법을 제안,
메모리·계산량을 절감하면서도 높은 성능을 달성하는 아키텍처를 자동으로 찾는 데 성공했다.