논문 링크: https://arxiv.org/abs/2105.07926
Towards Robust Vision Transformer
Recent advances on Vision Transformer (ViT) and its improved variants have shown that self-attention-based networks surpass traditional Convolutional Neural Networks (CNNs) in most vision tasks. However, existing ViTs focus on the standard accuracy and com
arxiv.org
OUTTA 논문 리뷰 링크: [2025-1] 주서영 - Towards Robust Vision Transformer
[2025-1] 주서영 - Towards Robust Vision Transformer
Towards Robust Vision Transformer Towards Robust Vision TransformerRecent advances on Vision Transformer (ViT) and its improved variants have shown that self-attention-based networks surpass traditional Convolutional Neural Networks (CNNs) in most vision
blog.outta.ai
1. Introduction
- RVT와 기존 Vision Transformer(ViT) 계열 모델(DeiT, ConViT, Swin, PVT, PiT) 비교
RVT와 다른 Transformer의 Standard Accuracy와 Robust Accuracy(FGSM) - 대부분 표준 정확도(standard accuracy)와 계산 비용만 집중 연구
- 높은 standard accuracy를 달성해도 robust accuracy(FGSM 등)에 대한 연구는 부족
- 견고성(robustness):
- Adversarial attack이나 out-of-distribution 상황에서 성능을 유지하는 능력
- 높은 standard accuracy지만, 견고성 부족으로 실제 상황에서 취약
- 본 논문의 기여
ViT vs. RVT*(구조 + 플러그앤플레이)의 구조 - ViT 구조적 구성 요소(패치 임베딩, 위치 임베딩, 트랜스포머 블록, 분류 헤드)의 견고성 영향 분석
- 플러그 앤 플레이 기법 제안 → 다른 ViT 모델에도 적용 가능
- Position-Aware Attention Scaling (PAAS)
- Patch-Wise Augmentation
2. Robustness Analysis of Designed Components
(1) Patch Embedding
- ViT의 단순 토큰화는 가장자리·모서리 특징 포착이 어려움
- Convolutional stem 사용
- 저수준 특징을 잘 활용하면서 계산 비용 낮춤
- Convolutional embedder로 견고성 향상
(2) Position Embedding
- 기존 Conditional Position Embedding(CPE)는 위치 변화에 취약 → 견고성 저하
- 다단계 설계를 적용하여 공간 해상도가 큰 경우의 문제 해결
- 위치 인코딩이 쉽게 변동되지 않도록 개선
(3) Transformer Blocks
- Multi-stage Design
견고성과 계산 비용을 고려하여 V2 선택 (DeiT-Ti architecture 실험) - Spatial resolution이 큰 상태로 트랜스포머 블록이 많이 쌓이면 견고성 하락
- 해상도를 점진적으로 낮추는 블록 설계를 통해 견고성 개선
- 실험 결과, DeiT-Ti 같은 작은 아키텍처에서도 multi-stage 구조가 유리
- Attention Head 수
Attention Head 수에 따른 성능 차이 - NLP와 유사하게, 적절한 Head 수를 통해 중복성 줄이고 특징 다양성 확보 → 견고성에 긍정적 영향
- Locality constraints of self-attention layer
- Swin처럼 겹치지 않는 local window로만 self-attention을 제한하면 모델 견고성에 좋지 않은 영향
- 전역 정보를 충분히 활용하는 편이 유리
- Convolutional FFN
- FFN에서 Convolution을 도입 시, 표준 정확도와 견고성 동시 향상
- Local self-attention과 달리 long-term dependencies 훼손이 적을 것으로 추정
- Convolutional FFN은 현재 토큰 + 이웃 토큰을 인코딩하므로 표현력 강화
(4) Classification Head
- CLS 토큰 대신 평균 풀링(average pooling) 사용
- CLS 토큰은 특정 위치 정보에 치우칠 수 있음
- 평균 풀링은 모든 위치를 동등하게 고려
- Translation-Invariance 개선, 견고성 강화
3. Plug-and-play Techniques
(1) Position-Aware Attention Scaling (PAAS)
- 기존 Scaled Dot-product Attention에 위치 중요도 행렬을 적용
- 공간 정보 상관관계를 보정하여 adversarial attack(FGSM) 및 OOD 일반화 성능 개선
(2) Patch-Wise Augmentation
- 전체 이미지 증강 + 각 패치별 개별 증강 결합
- 패치 간 관계까지 학습 가능
- 예) 무작위 크기 조정 자르기, 무작위 수평 뒤집기, 무작위 가우시안 노이즈 등
- 패치 내·패치 간 특성을 균형 있게 학습하여 견고성 향상
참고
- Adversarial Attack 유형:
- White-box 공격: 공격자가 모델 구조·파라미터를 모두 아는 상태 (예: FGSM, PGD)
- CLS 대신 GAP(Global Average Pooling) 사용 이유
- AdaptiveAvgPool2d(1) → (B, C, H, W) → (B, C, 1, 1)
- 평균 풀링 결과로 (B, C) 1차원 벡터를 얻어 분류
- 위치 정보 편향을 줄이고, 변환·이동 등에 대한 견고성 확보