논문 링크: https://arxiv.org/abs/2111.06377
Masked Autoencoders Are Scalable Vision Learners
This paper shows that masked autoencoders (MAE) are scalable self-supervised learners for computer vision. Our MAE approach is simple: we mask random patches of the input image and reconstruct the missing pixels. It is based on two core designs. First, we
arxiv.org
깃허브 주소: mae/models_mae.py at main · facebookresearch/mae
mae/models_mae.py at main · facebookresearch/mae
PyTorch implementation of MAE https//arxiv.org/abs/2111.06377 - facebookresearch/mae
github.com
Abstract
본 논문은 Masked Autoencoder (MAE)가 Computer Vision을 위한 확장 가능한 Self-supervised 학습 방법임을 보여준다.
핵심 아이디어:
- MAE는 단순한 구조를 가진다:
입력 이미지의 일부 패치(75%)를 무작위로 마스킹하고, 누락된 픽셀을 복원한다. - MAE는 두 가지 핵심 설계에 기반한다:
- 비대칭 인코더-디코더 구조 (asymmetric encoder-decoder)
- Encoder는 마스킹되지 않은 일부 패치에만 작동한다.
- Mask token은 사용하지 않음.
- Lightweight Decoder는 latent representation과 mask tokens를 이용하여 전체 이미지를 복원한다.
- 높은 비율의 마스킹이 효과적임을 발견
- 75% 이상 마스킹 → 더 어려운 학습 과제 → 더 좋은 표현 학습
- 비대칭 인코더-디코더 구조 (asymmetric encoder-decoder)
성능 요약:
- 학습 속도는 3배 이상 향상, 정확도도 증가
- ViT-Huge 모델을 사용하면, ImageNet-1K 기준 87.8% 정확도 달성 (기존 self-supervised 방식 중 최고 성능)
- Transfer Learning에서도 supervised pre-training을 능가하는 성능을 보임
1. Introduction
배경
딥러닝은 하드웨어의 발전과 함께 지속적으로 더 큰 모델과 더 많은 데이터를 요구하게 되었음.
- 하지만 수억 개의 레이블 이미지 확보는 현실적으로 어렵다.
이 문제는 자연어 처리(NLP) 분야에서 Self-supervised learning으로 해결됨.
- 예: GPT (Autoregressive), BERT (Masked Autoencoder)
- 데이터를 일부 제거하고, 제거된 내용을 예측하는 방식
- 100B+ 파라미터 모델까지 일반화 가능
비전 분야에서 MAE가 어려운 이유
- 과거 아키텍처의 차이점
- 이전에는 CNN이 주류 → Mask token, positional embedding 통합이 어려움
- Vision Transformer (ViT) 등장으로 이 문제는 해결됨
- 언어 vs. 이미지의 정보 밀도 차이
- 텍스트는 정보가 밀집되고 의미 중심 → 단어 몇 개만 예측해도 고차원 의미 학습
- 이미지: 공간적 중복이 심함, 패치 몇 개로 대부분 예측 가능 → 학습이 쉬움
- 해결책: 매우 높은 비율의 무작위 마스킹 (예: 75% 이상)
→ 더 어려운 과제 → 고차원 표현 학습 유도
- Decoder의 역할 차이
- NLP: decoder는 의미 있는 단어를 예측
- Vision: decoder는 픽셀을 복원 → 낮은 수준의 의미
- 따라서 Vision에서는 decoder 설계가 매우 중요
MAE 설계 및 특징
구조 개요
- Encoder: 마스킹되지 않은 패치만 처리 (mask token 없이)
- Decoder: latent vector + mask token으로 픽셀 복원
- 비대칭 구조로 계산량 감소 및 효율적인 학습 가능
→ Mask token을 decoder로만 보내면서 encoder 계산량을 75% 줄임
이점
- 학습 속도 3배 향상
- 메모리 소비 감소
- 대용량 모델로의 확장 가능 (e.g., ViT-Large, ViT-Huge)
성능 및 확장성
- ViT-Huge: ImageNet-1K 기준 87.8% 정확도 달성
- 다양한 다운스트림 태스크 (Object Detection, Segmentation 등)에서도 supervised pre-training보다 우수
→ NLP에서 BERT/GPT가 했던 역할을 Vision에서도 수행 가능함을 시사
- MAE 구조를 요약한 그림
- 학습 시 75% 패치를 mask → decoder가 전체 이미지 복원
- 학습 후 decoder는 버리고, encoder만 사용
- ImageNet/COCO Validation 이미지 복원 결과
- 75~95% 마스킹에도 불구하고 의미 있는 복원 가능
- 일부 복원 결과는 실제와 다르지만 의미론적으로 타당함
2. Related Work
(1) Masked Language Modeling (MLM)과 Autoregressive Modeling
- BERT, GPT 등은 NLP에서 매우 성공적인 사전학습 방식으로 자리잡음.
- 입력 시퀀스 일부를 제거하고, 이를 예측하도록 학습.
- 확장성 뛰어남 → 사전학습된 표현이 다양한 다운스트림 태스크에 잘 일반화됨.
(2) Autoencoder 계열
- Autoencoder: 입력 → latent representation → 다시 원래 입력으로 복원
- 예: PCA, k-means도 autoencoder의 일종
- Denoising Autoencoder (DAE): 입력을 의도적으로 손상시키고, 원래 신호를 복원하도록 학습
- 예: 픽셀 마스킹, 컬러 채널 제거
- MAE도 DAE의 일종이지만, 전통적인 DAE와는 설계상 큰 차이가 있음
(3) Masked Image Encoding
- 이미지에 마스킹을 적용하여 표현을 학습
- [59]: DAE에서 마스킹을 일종의 노이즈로 간주
- Context Encoder: CNN 기반으로 큰 결손 영역을 복원
- iGPT: 픽셀 시퀀스 기반 예측
- ViT: patch 단위 마스킹 적용
- BEiT: discrete token 예측 방식 채택
(4) Self-Supervised Learning
- Pretext task를 통해 학습 (예: Rotation 예측, Jigsaw Puzzle, etc.)
- 최근에는 Contrastive Learning이 큰 인기를 얻음
- 대표적 연구: [SimCLR, MoCo, BYOL]
- 데이터 증강에 크게 의존함
- Contrastive 방식과 달리, Autoencoding은 다른 방식의 표현 학습 경로를 제시
3. Approach
Masked Autoencoder (MAE) 개요
- 입력의 일부만 관찰한 상태에서 전체를 복원하는 간단한 autoencoder 방식
- 비대칭 구조 (Asymmetric Design):
- Encoder: 마스킹되지 않은 패치만 처리 (mask token 없음)
- Decoder: latent vector + mask token으로 전체 이미지 복원
3.1 Masking
- ViT [16]처럼 이미지를 patch 단위로 분할
- 무작위로 패치를 샘플링하여 나머지 패치를 마스킹
- Uniform sampling으로 중심 영역 마스킹 편향 방지
- 고마스킹 비율 (예: 75%) → 인접 패치로 예측이 불가능한 어려운 학습 과제 형성
→ 고차원적 표현 학습 유도
3.2 MAE Encoder
- ViT 구조를 기반으로 하되, visible patches만 입력
- 각 패치는 linear projection + positional embedding 후 transformer로 처리
- 전체 패치의 일부만 사용하므로, 연산량과 메모리 절약
- 예: 전체 중 25%만 사용 → 대형 모델 학습 가능
3.3 MAE Decoder
- 입력:
(i) 인코딩된 visible patches
(ii) shared mask tokens (학습 가능한 벡터, 위치 정보는 positional embedding 추가) - mask token은 예측 대상 위치를 알려주는 역할
- 경량화된 Transformer 구조
- Encoder보다 얕고 좁은 구조 사용 (연산량 < 10%)
- Decoder는 pre-training에서만 사용, downstream task에는 사용하지 않음
3.4 Reconstruction Target
- 복원 대상: 마스킹된 패치의 픽셀 값
- decoder의 출력 벡터는 각 patch의 픽셀 벡터
- 마지막 layer는 linear projection (출력 채널 수 = patch pixel 수)
- Loss: MSE (mean squared error)
- 마스킹된 패치에만 적용 (visible patch는 loss에 포함 X)
- → BERT 방식과 유사함
- 모든 픽셀에 loss를 주면 오히려 정확도 0.5% 감소
- Normalized pixel 값을 예측 대상으로 하는 변형도 실험
- patch 내부 픽셀 평균과 표준편차로 정규화
- → 표현 품질 향상
3.5 간단한 구현 방식
- MAE는 희소 연산(sparse ops) 없이도 효율적인 구현 가능
- 모든 patch → token 생성 (linear + positional embedding)
- 무작위로 토큰 리스트 섞고, 일부 제거 (마스킹 비율만큼)
- Encoder는 이 작은 subset만 사용
- Encoding 후 → mask token 붙이고, 원래 순서대로 unshuffle
- 전체 토큰 리스트를 decoder에 입력
- shuffling / unshuffling 연산은 매우 빠르며, 추가 오버헤드는 거의 없음
- Fine-tuning, Linear probing 모두에서 75% 마스킹 비율이 최적
- 너무 낮거나 높은 비율은 성능 저하
- 적절한 마스킹 비율 선택이 중요
4. ImageNet Experiments
Setup
- Pre-training: ImageNet-1K (IN1K) 학습 세트를 사용하여 self-supervised 학습
- 평가:
- End-to-end fine-tuning
- Linear probing
- 측정 지표: Top-1 validation accuracy (224×224 crop)
4.1 주요 특성 분석 (Ablation Study)
기준 모델: ViT-Large (ViT-L/16)
- ResNet-50보다 훨씬 큰 모델이며 오버피팅 경향 존재
- 비교 결과:
→ MAE 사전학습은 50 에폭만 fine-tuning 해도 성능이 뛰어남 (from scratch 학습은 200 에폭 필요)
Masking Ratio (마스킹 비율)
- 최적의 마스킹 비율은 75%로 매우 높음
- BERT의 마스킹 비율(15%)보다 훨씬 높고, 기존 Vision 방법(20~50%)보다도 큼
- linear probing 성능은 마스킹 비율에 민감하고 75%에서 최대 성능 도달
- fine-tuning은 다양한 비율(40~80%)에서 안정적
→ 높은 비율의 마스킹이 추론 기반의 표현 학습을 유도함
Decoder 구조 변화 실험
(a) Decoder 깊이
- Linear probing 성능은 깊이에 따라 최대 8% 향상
- Reconstruction task는 low-level 정보를 다루기 때문에, decoder가 깊을수록 효과적
- 하지만 fine-tuning에서는 영향이 적음
(b) Decoder 너비
- default: 512-d (ViT-L은 1024-d)
- narrow decoder도 충분히 성능 유지
- → decoder는 연산량 9%에 불과 (전체 compute 중)
Mask token을 Encoder에서 제거
(c) 실험 결과:
- mask token을 encoder에서 제거하면 성능이 크게 향상됨
- 실제로 추론 시에는 mask token이 없기 때문
- 학습 시간 2.8~4.1배 단축, 메모리 사용량 절감
Reconstruction Target 실험
(d) 다양한 예측 대상 비교:
→ 정규화된 픽셀이 가장 좋은 성능
→ BEiT 방식의 token 예측은 오히려 linear probing 성능 하락
Data Augmentation 실험
(e) 실험 결과:
- Color jitter는 오히려 성능 하락
- MAE는 강한 augmentation 없이도 효과적
- contrastive learning처럼 augmentation에 크게 의존하지 않음
Mask Sampling 전략
(f) 결과 비교:
- Random masking이 가장 좋음
- Block-wise는 재구성은 어렵지만 표현 학습 품질은 떨어짐
- Grid는 재구성은 쉽지만 representation 품질 낮음
Training Schedule
- 학습 에폭이 길어질수록 성능 향상
- 1600 epochs까지도 성능이 계속 증가 (saturation 없음)
4.2 기존 방법과의 성능 비교
ImageNet-1K fine-tuning 성능 비교:
→ MAE는 external data 없이 최고 성능 (ViT-H + 448 입력)
4.3 Partial Fine-tuning (일부 layer만 학습)
- MAE는 linear probing 성능은 낮지만, 일부 block만 fine-tuning 해도 성능 급상승
- 예: 마지막 block 1개만 학습 → 73.5% → 81.0%
- MLP sub-block만 학습해도 79.1%
- MoCo v3보다 부분 fine-tuning에서 일관되게 우수
- 결론: MAE는 비선형 표현 학습에 강함
즉,
- MAE는 간단한 구조, 고효율 연산, 우수한 표현력을 가짐
- contrastive 학습보다 학습 비용 낮고, 데이터 증강 의존도 적음
- 확장성 뛰어나며, transfer 학습에서도 강력한 성능
5. Transfer Learning Experiments
본 장에서는 ImageNet-1K에서 MAE로 pre-training한 모델을 다양한 다운스트림 태스크에 fine-tuning하여 transfer 성능을 평가하였다.
MAE Pre-training vs. Supervised Pre-training (ImageNet-1K, 224px)
- MAE가 같은 데이터만 사용해도 supervised 방법을 능가함
- 특히 ViT-H/14에서는 MAE가 supervised (ImageNet-1K)의 모든 결과보다 높은 정확도를 보임
- JFT-300M처럼 수억 개 이미지로 사전학습한 supervised 모델과도 비슷하거나 뛰어난 성능
- MAE는 외부 데이터 없이도 높은 성능 도달 (87.8%)
- 모델 크기가 커질수록 MAE의 강점이 더욱 뚜렷
- 이는 MAE의 스케일링 성질을 강조하는 부분
5.1 COCO Object Detection & Segmentation
- 방법: Mask R-CNN을 이용해 COCO 데이터셋에서 end-to-end fine-tuning 수행
- Backbone: ViT-B / ViT-L, FPN에 맞게 조정
- 지표: APbox (Object Detection), APmask (Instance Segmentation)
→ MAE는 Supervised 및 MoCo v3보다 성능 우수
→ BEiT보다 간단하고 빠르면서 비슷하거나 더 좋은 성능
5.2 의미론적 분할 (ADE20K)
- 방법: UperNet 사용
- 성능 지표: mIoU (mean Intersection over Union)
→ MAE는 ViT-L에서 supervised보다 3.7% 더 높음
5.3 분류 (iNaturalist / Places)
→ iNat에서는 모든 모델 크기에서 기존 최고 기록을 초과
→ Places 데이터에서도 수십억 이미지로 pre-training한 기존 모델보다 우수
5.4 Pixel vs. Token 기반 복원 비교
→ 정규화된 픽셀과 token 방식은 성능 차이가 거의 없음
→ 복잡한 tokenization 과정 없이도 픽셀 기반 MAE로 충분히 고성능 달성
6. Discussion and Conclusion
- MAE는 간단하면서도 확장 가능한 self-supervised 방식
- ImageNet 및 다양한 다운스트림 태스크에서 supervised pre-training을 능가
- Contrastive 방식보다 연산량, 메모리 사용량, 구현 난이도 모두 낮음
- MAE는 정형화된 object 제거가 아닌 무작위 패치 제거라는 점에서 NLP와 차이 존재
- 하지만, 픽셀 복원만으로도 의미 있는 시맨틱 표현을 학습한다는 점에서 흥미로운 가능성 제시
Future Work
- 비전에서의 self-supervised learning도 NLP의 BERT/GPT처럼 스케일업을 통한 효과를 기대할 수 있음
- 실제 실험에서도 모델 크기가 커질수록 성능이 선형적으로 향상
- 추후 MAE 방식은 초대규모 모델 학습 및 전이학습의 기반이 될 수 있음
Boarder Impacts
- MAE는 학습 데이터 통계에 기반해 내용을 예측하므로, 데이터의 편향이 그대로 반영될 수 있음
- 가짜 또는 존재하지 않는 내용 생성 가능성 존재
- 추후 응용 시 적절한 통제와 책임 있는 사용 필요