논문 링크: https://arxiv.org/pdf/1711.10684
OUTTA 논문 리뷰 링크: [2025-1] 유경석 - Road Extraction by Deep Residual U-Net
[2025-1] 유경석 - Road Extraction by Deep Residual U-Net
https://arxiv.org/pdf/1711.10684AbstractRoad extraction은 원격 감지 이미지 분석 분야의 뜨거운 연구 주제Residual learning과 U-Net의 결합 구조를 통해 Road extraction 수행 1) Residual unit은 Deep network의 training이 더욱
blog.outta.ai
1. Abstract
- Road extraction은 고해상도 원격 감지 이미지 분석에서 중요한 연구 주제.
- Residual learning과 U-Net을 결합한 ResUNet 구조를 제안하여 Road extraction 수행.
- Residual unit: Deep network 학습을 용이하게 함.
- Skip connection: 적은 파라미터로도 높은 성능 달성(정보 전달·결합이 원활).
- 공공 로드 데이터셋 실험 결과, 기존 네트워크보다 ResUNet이 더 높은 성능을 보임.
2. Introduction
2.1 Road Extraction
- 원격 감지(Remote Sensing)에서 자동 항법, 무인 자동차, 도시 설계, GIS 업데이트 등 다양한 분야에 활용.
- 고해상도 이미지를 원격으로 감지할 때 노이즈(noise), 가림(occlusion), 복잡한 배경 등 해결 과제 존재.
- Road extraction은 Segmentation 혹은 Pixel-level classification으로 접근:
- 전통적 기법 (SVM, 계층적 그래프 기반 세그멘테이션 등)도 있으나,
- Deep Learning을 적용했을 때 더 우수한 성능과 가능성을 보임.
2.2 기존 Deep Learning
- Minh & Hinton:
- Restricted Boltzmann Machine(RBM) 적용
- Pre-processing(차원 축소), Post-processing(불완전 영역 후처리) 단계 결합
- Saito et al.:
- CNN 적용
- 높은 정확도 달성
2.3 Deep residual learning & U-Net
- 딥러닝은 높은 성능을 위해 레이어를 깊게 쌓으나 vanishing gradient 등 문제가 발생.
- 이를 해결하는 대표적 구조:
- Deep residual learning (He et al.):
- Identity mapping으로 skip connection 구성 → 학습 용이
- U-Net (Ronneberger et al.):
- 다양한 level의 feature map을 결합(저차원 디테일 + 고차원 의미정보)
- 생의학(biomedical) 이미지에서 높은 성능
- Deep residual learning (He et al.):
- Deep ResUNet
- Residual learning과 U-Net의 장점을 모두 결합한 구조
- 1) residual unit을 기본 블록으로 사용
- 2) U-Net과 달리 cropping 불필요
- 더 쉽고 효율적으로 학습 가능
3. Methodology
A. Deep ResUNet
- U-Net
- Low-level detail + High-level semantic 정보 결합
- Data augmentation을 통해 제한된 데이터 양을 증대
- Information propagation: low-level feature를 대응하는 high-level layer에 연결 (skip connection)
→ 학습 시 역전파(backward propagation)에 유리, 고수준 의미정보 + 저수준 디테일 결합
- Residual unit
- Deep network 학습 시 발생하는 문제(기울기 소실, Degradation 등) 해결
- Skip connection(identity mapping)으로 구성
- 내부 구조: Batch Norm → ReLU → Conv (3×3) 조합
- $F$ = residual function, $f$ = activation function, $h$ = identity mapping function
- Deep ResUNet
- U-Net + Residual network 결합
- Training이 쉽게 이루어지고, Information propagation을 통해 적은 파라미터로 높은 성능 확보
- 전체 7개 레벨 아키텍처(Encoding, Bridge, Decoding)
- Encoding: 입력 이미지를 compact representation으로 변환
- Bridge: encoding과 decoding을 연결
- Decoding: pixel-wise 분류(세그멘테이션) 형식의 출력 이미지 생성
- 각 레벨에서 Residual unit 사용,
- Downsampling은 stride 2 convolution 사용 (Pooling 대신),
- UpSampling 시 Encoding feature map과 concat을 수행 (skip connection),
- 마지막 레벨에서 1×1 Conv + Sigmoid로 최종 Road mask 생성
- U-Net(23층) 대비 15개의 적은 Conv layer 사용, cropping 불필요
B. Loss Function
- 모델 파라미터 $W$를 찾기 위해 $Net(I_i; W)$와 Ground Truth $s_i$ 간 차이를 최소화 → MSE(Mean Squared Error) 채택
- SGD로 최적화(또는 다른 미분 가능 loss 함수 사용 가능)
- U-Net은 pixel-wise cross entropy를 사용하기도 함
C. Result Refinement
- 입력/출력 이미지를 동일한 사이즈(224×224)로 맞춤
- Overlap strategy를 이용해 경계(Boundary) 부분 정확도 개선
4. Experiment
- Massachusetts Roads Dataset 사용
- Mnih’s method(RBM), Saito’s CNN, U-Net과 비교
- Relaxed precision, recall, break-even point 등 비교
Result
- Deep ResUNet이 가장 높은 relaxed precision·recall 수치 및 전반적 성능 보임
- U-Net 대비 파라미터 수는 1/4 수준이지만 더 우수한 결과 달성
- 시각적 비교 (a)~(e):
- (e) ResUNet 세그멘테이션 결과가 노이즈 적고, 교차 도로 부근이 깔끔하게 처리
- Context 정보를 잘 파악 → 비슷한 특징의 객체와 구분, 가려진(occlusion) 부분에서도 성능 좋음
- Parking lot 내부 도로 등 불필요한 영역을 잘 배제
5. Conclusion
- Deep ResUNet을 고해상도 원격 감지 이미지의 Road Extraction에 적용하면,
- Residual learning + U-Net의 장점을 모두 누릴 수 있음.
- Residual unit의 skip connection과 U-Net의 information propagation 덕분에 학습이 용이하고, 간단하면서도 강력한 네트워크 구현 가능.
- 적은 파라미터에도 불구하고 기존 방법 대비 우수한 성능을 보임.
- 고해상도 이미지에서의 노이즈, 복잡한 배경, 가림 문제 등을 잘 처리하여 실용적 가치가 높음.
요약
- Road Extraction은 세그멘테이션 관점에서 접근해야 하며, 고해상도 원격 감지 이미지는 노이즈/가림/복잡도 문제가 큼.
- ResUNet은 Residual learning과 U-Net을 결합해 학습 안정성과 정보 결합 효과를 높임.
- Stride 2 Convolution으로 downsampling, skip connection으로 upsampling 시 특징 맵 연결 → 세부 정보 + 고수준 정보 결합.
- Massachusetts roads dataset 실험에서 Mnih’s RBM, Saito’s CNN, U-Net 대비 높은 성능 달성.
- 파라미터 수가 크게 늘어나지 않으면서도 정확도를 향상시켜 실제 적용 가능성이 높음.
결론: Residual learning과 U-Net이라는 두 가지 강력한 아키텍처의 장점을 효과적으로 결합하여, 고해상도 원격 감지 이미지에서의 도로 영역 추출(Road Extraction) 문제를 성공적으로 해결한 사례. 이는 향후 다른 세그멘테이션 문제나 복잡한 객체 인식 분야에서도 적용 가능성을 시사한다.