Paper Review/Detection & Segmentation

[OUTTA Alpha팀 논문 리뷰 요약] Part 7-2. ResUNet: Road Extraction by Deep Residual U-Net

YeonJuJeon 2025. 1. 19. 18:17

 

논문 링크: https://arxiv.org/pdf/1711.10684

 

 

OUTTA 논문 리뷰 링크: [2025-1] 유경석 - Road Extraction by Deep Residual U-Net

 

[2025-1] 유경석 - Road Extraction by Deep Residual U-Net

https://arxiv.org/pdf/1711.10684AbstractRoad extraction은 원격 감지 이미지 분석 분야의 뜨거운 연구 주제Residual learning과 U-Net의 결합 구조를 통해 Road extraction 수행 1) Residual unit은 Deep network의 training이 더욱

blog.outta.ai


1. Abstract

  • Road extraction은 고해상도 원격 감지 이미지 분석에서 중요한 연구 주제.
  • Residual learningU-Net을 결합한 ResUNet 구조를 제안하여 Road extraction 수행.
    1. Residual unit: Deep network 학습을 용이하게 함.
    2. Skip connection: 적은 파라미터로도 높은 성능 달성(정보 전달·결합이 원활).
  • 공공 로드 데이터셋 실험 결과, 기존 네트워크보다 ResUNet더 높은 성능을 보임.

2. Introduction

2.1 Road Extraction

  • 원격 감지(Remote Sensing)에서 자동 항법, 무인 자동차, 도시 설계, GIS 업데이트 등 다양한 분야에 활용.
  • 고해상도 이미지를 원격으로 감지할 때 노이즈(noise), 가림(occlusion), 복잡한 배경 등 해결 과제 존재.
  • Road extraction은 Segmentation 혹은 Pixel-level classification으로 접근:
    • 전통적 기법 (SVM, 계층적 그래프 기반 세그멘테이션 등)도 있으나,
    • Deep Learning을 적용했을 때 더 우수한 성능과 가능성을 보임.

2.2 기존 Deep Learning

  • Minh & Hinton:
    • Restricted Boltzmann Machine(RBM) 적용
    • Pre-processing(차원 축소), Post-processing(불완전 영역 후처리) 단계 결합
  • Saito et al.:
    • CNN 적용
    • 높은 정확도 달성

2.3 Deep residual learning & U-Net

  • 딥러닝은 높은 성능을 위해 레이어를 깊게 쌓으나 vanishing gradient 등 문제가 발생.
  • 이를 해결하는 대표적 구조:
    1. Deep residual learning (He et al.):
      • Identity mapping으로 skip connection 구성 → 학습 용이
    2. U-Net (Ronneberger et al.):
      • 다양한 level의 feature map을 결합(저차원 디테일 + 고차원 의미정보)
      • 생의학(biomedical) 이미지에서 높은 성능
  • Deep ResUNet
    • Residual learning과 U-Net의 장점을 모두 결합한 구조
    • 1) residual unit을 기본 블록으로 사용
    • 2) U-Net과 달리 cropping 불필요
    • 더 쉽고 효율적으로 학습 가능

3. Methodology

A. Deep ResUNet

  1. U-Net
    • Low-level detail + High-level semantic 정보 결합
    • Data augmentation을 통해 제한된 데이터 양을 증대
    • Information propagation: low-level feature를 대응하는 high-level layer에 연결 (skip connection)
      → 학습 시 역전파(backward propagation)에 유리, 고수준 의미정보 + 저수준 디테일 결합
  2. Residual unit
    • Deep network 학습 시 발생하는 문제(기울기 소실, Degradation 등) 해결
    • Skip connection(identity mapping)으로 구성
    • 내부 구조: Batch Norm → ReLU → Conv (3×3) 조합
    • $F$ = residual function, $f$ = activation function, $h$ = identity mapping function
  3. Deep ResUNet
    • U-Net + Residual network 결합
    • Training이 쉽게 이루어지고, Information propagation을 통해 적은 파라미터높은 성능 확보
    • 전체 7개 레벨 아키텍처(Encoding, Bridge, Decoding)
      • Encoding: 입력 이미지를 compact representation으로 변환
      • Bridge: encoding과 decoding을 연결
      • Decoding: pixel-wise 분류(세그멘테이션) 형식의 출력 이미지 생성
    • 각 레벨에서 Residual unit 사용,
    • Downsampling은 stride 2 convolution 사용 (Pooling 대신),
    • UpSampling 시 Encoding feature mapconcat을 수행 (skip connection),
    • 마지막 레벨에서 1×1 Conv + Sigmoid로 최종 Road mask 생성
    • U-Net(23층) 대비 15개의 적은 Conv layer 사용, cropping 불필요

B. Loss Function

  • 모델 파라미터 $W$를 찾기 위해 $Net(I_i; W)$와 Ground Truth $s_i$ 간 차이를 최소화 → MSE(Mean Squared Error) 채택
  • SGD로 최적화(또는 다른 미분 가능 loss 함수 사용 가능)
  • U-Net은 pixel-wise cross entropy를 사용하기도 함

C. Result Refinement

  • 입력/출력 이미지를 동일한 사이즈(224×224)로 맞춤
  • Overlap strategy를 이용해 경계(Boundary) 부분 정확도 개선

4. Experiment

(a) input image; (b) Ground truth; (c) CNN; (d) U-Net; (e) ResUNet

  • Massachusetts Roads Dataset 사용
  • Mnih’s method(RBM), Saito’s CNN, U-Net과 비교
  • Relaxed precision, recall, break-even point 등 비교

Result

  • Deep ResUNet가장 높은 relaxed precision·recall 수치 및 전반적 성능 보임
  • U-Net 대비 파라미터 수는 1/4 수준이지만 더 우수한 결과 달성
  • 시각적 비교 (a)~(e):
    • (e) ResUNet 세그멘테이션 결과가 노이즈 적고, 교차 도로 부근이 깔끔하게 처리
    • Context 정보를 잘 파악 → 비슷한 특징의 객체와 구분, 가려진(occlusion) 부분에서도 성능 좋음
    • Parking lot 내부 도로 등 불필요한 영역을 잘 배제

5. Conclusion

  • Deep ResUNet고해상도 원격 감지 이미지의 Road Extraction에 적용하면,
    • Residual learning + U-Net의 장점을 모두 누릴 수 있음.
    • Residual unit의 skip connection과 U-Net의 information propagation 덕분에 학습이 용이하고, 간단하면서도 강력한 네트워크 구현 가능.
  • 적은 파라미터에도 불구하고 기존 방법 대비 우수한 성능을 보임.
  • 고해상도 이미지에서의 노이즈, 복잡한 배경, 가림 문제 등을 잘 처리하여 실용적 가치가 높음.

요약

  1. Road Extraction은 세그멘테이션 관점에서 접근해야 하며, 고해상도 원격 감지 이미지는 노이즈/가림/복잡도 문제가 큼.
  2. ResUNetResidual learningU-Net을 결합해 학습 안정성정보 결합 효과를 높임.
  3. Stride 2 Convolution으로 downsampling, skip connection으로 upsampling 시 특징 맵 연결 → 세부 정보 + 고수준 정보 결합.
  4. Massachusetts roads dataset 실험에서 Mnih’s RBM, Saito’s CNN, U-Net 대비 높은 성능 달성.
  5. 파라미터 수가 크게 늘어나지 않으면서도 정확도를 향상시켜 실제 적용 가능성이 높음.

결론: Residual learning과 U-Net이라는 두 가지 강력한 아키텍처의 장점을 효과적으로 결합하여, 고해상도 원격 감지 이미지에서의 도로 영역 추출(Road Extraction) 문제를 성공적으로 해결한 사례. 이는 향후 다른 세그멘테이션 문제복잡한 객체 인식 분야에서도 적용 가능성을 시사한다.