Paper Review/Computer Vision

[OUTTA Alpha팀 논문 리뷰 요약] Part 7-4. Towards Robust Vision Transformer

YeonJuJeon 2025. 1. 19. 18:37

Towards Robust Vision Transformer

Recent advances on Vision Transformer (ViT) and its improved variants have shown that self-attention-based networks surpass traditional Convolutional Neural Networks (CNNs) in most vision tasks. However, existing ViTs focus on the standard accuracy and com

arxiv.org

OUTTA 논문 리뷰 링크: [2025-1] 주서영 - Towards Robust Vision Transformer

[2025-1] 주서영 - Towards Robust Vision Transformer

Towards Robust Vision Transformer Towards Robust Vision TransformerRecent advances on Vision Transformer (ViT) and its improved variants have shown that self-attention-based networks surpass traditional Convolutional Neural Networks (CNNs) in most vision

blog.outta.ai

1. Introduction

RVT와 기존 Vision Transformer(ViT) 계열 모델(DeiT, ConViT, Swin, PVT, PiT) 비교
- RVT와 다른 Transformer의 Standard Accuracy와 Robust Accuracy(FGSM)
- 대부분 표준 정확도(standard accuracy)와 계산 비용만 집중 연구
- 높은 standard accuracy를 달성해도 robust accuracy(FGSM 등)에 대한 연구는 부족
견고성(robustness):
- Adversarial attack이나 out-of-distribution 상황에서 성능을 유지하는 능력
- 높은 standard accuracy지만, 견고성 부족으로 실제 상황에서 취약
본 논문의 기여
ViT vs. RVT*(구조 + 플러그앤플레이)의 구조
1. ViT 구조적 구성 요소(패치 임베딩, 위치 임베딩, 트랜스포머 블록, 분류 헤드)의 견고성 영향 분석
2. 플러그 앤 플레이 기법 제안 → 다른 ViT 모델에도 적용 가능
  - Position-Aware Attention Scaling (PAAS)
  - Patch-Wise Augmentation

2. Robustness Analysis of Designed Components

(1) Patch Embedding

ViT의 단순 토큰화는 가장자리·모서리 특징 포착이 어려움
Convolutional stem 사용
- 저수준 특징을 잘 활용하면서 계산 비용 낮춤
- Convolutional embedder로 견고성 향상

(2) Position Embedding

기존 Conditional Position Embedding(CPE)는 위치 변화에 취약 → 견고성 저하
다단계 설계를 적용하여 공간 해상도가 큰 경우의 문제 해결
위치 인코딩이 쉽게 변동되지 않도록 개선

(3) Transformer Blocks

Multi-stage Design
- 견고성과 계산 비용을 고려하여 V2 선택 (DeiT-Ti architecture 실험)
- Spatial resolution이 큰 상태로 트랜스포머 블록이 많이 쌓이면 견고성 하락
- 해상도를 점진적으로 낮추는 블록 설계를 통해 견고성 개선
- 실험 결과, DeiT-Ti 같은 작은 아키텍처에서도 multi-stage 구조가 유리
Attention Head 수
- Attention Head 수에 따른 성능 차이
- NLP와 유사하게, 적절한 Head 수를 통해 중복성 줄이고 특징 다양성 확보 → 견고성에 긍정적 영향
Locality constraints of self-attention layer
- Swin처럼 겹치지 않는 local window로만 self-attention을 제한하면 모델 견고성에 좋지 않은 영향
- 전역 정보를 충분히 활용하는 편이 유리
Convolutional FFN
- FFN에서 Convolution을 도입 시, 표준 정확도와 견고성 동시 향상
- Local self-attention과 달리 long-term dependencies 훼손이 적을 것으로 추정
- Convolutional FFN은 현재 토큰 + 이웃 토큰을 인코딩하므로 표현력 강화

(4) Classification Head

CLS 토큰 대신 평균 풀링(average pooling) 사용
- CLS 토큰은 특정 위치 정보에 치우칠 수 있음
- 평균 풀링은 모든 위치를 동등하게 고려
- Translation-Invariance 개선, 견고성 강화

3. Plug-and-play Techniques

(1) Position-Aware Attention Scaling (PAAS)

기존 Scaled Dot-product Attention에 위치 중요도 행렬을 적용
공간 정보 상관관계를 보정하여 adversarial attack(FGSM) 및 OOD 일반화 성능 개선

(2) Patch-Wise Augmentation

전체 이미지 증강 + 각 패치별 개별 증강 결합
패치 간 관계까지 학습 가능
예) 무작위 크기 조정 자르기, 무작위 수평 뒤집기, 무작위 가우시안 노이즈 등
패치 내·패치 간 특성을 균형 있게 학습하여 견고성 향상

참고

Adversarial Attack 유형:
- White-box 공격: 공격자가 모델 구조·파라미터를 모두 아는 상태 (예: FGSM, PGD)
CLS 대신 GAP(Global Average Pooling) 사용 이유
- AdaptiveAvgPool2d(1) → (B, C, H, W) → (B, C, 1, 1)
- 평균 풀링 결과로 (B, C) 1차원 벡터를 얻어 분류
- 위치 정보 편향을 줄이고, 변환·이동 등에 대한 견고성 확보

'Paper Review > Computer Vision' 카테고리의 다른 글

[OUTTA Alpha팀 논문 리뷰] Part 8-4. Swin-UNet: Unet-like Pure Transformer for Medical Image Segmentation (0)	2025.01.25
[OUTTA Alpha팀 논문 리뷰 요약] Part 7-5. DiT: Scalable Diffusion Models with Transformers (0)	2025.01.19
[OUTTA Alpha팀 논문 리뷰 요약] Part 6-1. CLIP: Learning Transferable Visual Models From Natural Language Supervision (1)	2025.01.07
[OUTTA Alpha팀 논문 리뷰 요약] Part 5-4. ViT (1)	2025.01.03
[OUTTA Alpha팀 논문 리뷰 요약] Part 5-3. Transformer: Attention Is All You Need (0)	2025.01.03

현재글[OUTTA Alpha팀 논문 리뷰 요약] Part 7-4. Towards Robust Vision Transformer

연주의 공부 기록

Medical Image AI & CV 내가 보려고 만든 블로그💻 논문 & 코드 리뷰 및 이론 정리. * 논문 리뷰 요약은 흐름 파악용.

ip-adapter, instantstyle, 의학영상처리, srdiff, pytorch, classification, votenet, voxelmorph, sr3, deep-emotion, Distillation, transformer, RNN, gpt-neox-20b, LSTM, keras, fami, sleap, maisi, regression,

Today :
Yesterday :

일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

연주의 공부 기록

[OUTTA Alpha팀 논문 리뷰 요약] Part 7-4. Towards Robust Vision Transformer

1. Introduction

2. Robustness Analysis of Designed Components

(1) Patch Embedding

(2) Position Embedding

(3) Transformer Blocks

(4) Classification Head

3. Plug-and-play Techniques

(1) Position-Aware Attention Scaling (PAAS)

(2) Patch-Wise Augmentation

참고

'Paper Review > Computer Vision' 카테고리의 다른 글

'Paper Review/Computer Vision'의 다른글

티스토리툴바

[OUTTA Alpha팀 논문 리뷰 요약] Part 7-4. Towards Robust Vision Transformer

1. Introduction

2. Robustness Analysis of Designed Components

(1) Patch Embedding

(2) Position Embedding

(3) Transformer Blocks

(4) Classification Head

3. Plug-and-play Techniques

(1) Position-Aware Attention Scaling (PAAS)

(2) Patch-Wise Augmentation

참고

'Paper Review > Computer Vision' 카테고리의 다른 글

'Paper Review/Computer Vision'의 다른글

관련글

티스토리툴바