[OUTTA Alpha팀 논문 리뷰 요약] Part 4-4. DN-DETR: Accelerate DETR Training byIntroducing Query DeNoising

Paper Review/Detection & Segmentation

[OUTTA Alpha팀 논문 리뷰 요약] Part 4-4. DN-DETR: Accelerate DETR Training byIntroducing Query DeNoising

YeonJuJeon 2024. 12. 29. 21:49

논문 링크: https://arxiv.org/pdf/2203.01305

1. 배경 및 목표

DETR (DEtection TRansformer)는 객체 검출에서 이분 매칭(bipartite matching)을 통해 Post-processing 없이 직접 박스를 예측하지만,
- 학습 속도 느림, 매칭 과정 불안정 → 빠른 수렴이 어려움
DN-DETR은 Denoising Training으로 학습 초기부터 모델이 정확한 예측을 하도록 유도 → 빠른 수렴 + 높은 정확도 달성
- DeNoising Queries: 의도적으로 노이즈를 추가해 학습 시 더 다양한 위치/조건에서도 정확한 추론을 수행하도록 함

2. 주요 아이디어

DAB-DETR 구조 기반
- DAB-DETR는 4D 앵커 박스($x,y,w,h$)를 Learnable Parameter로 사용
- Class Label Embedding + Indicator로 객체 클래스 정보와 노이즈/실제 객체 구분
Noising Queries
- Box Noising:
  - 중심좌표($x,y$)에 랜덤 이동, 크기($w,h$) 축소/확대 등
- Label Noising:
  - 실제 라벨 대신 다른 라벨을 임의로 제공
- 모델이 노이즈 제거(De-Noise) 과정을 학습하며 정확한 예측을 하게 됨
- Reconstruction Loss
  - 박스: $L_1$ + GIoU Loss
  - 클래스: Focal Loss 사용
Attention Mask

정보 누출(Information Leakage) 방지
2가지 정보 누출 방지:
1. Denoising part vs Matching part 간 상호 참조 방지
  - Denoising part가 GT와 가깝기 때문에 Matching part에 영향을 주면 학습 편향
2. 노이즈 그룹 간 상호 참조 방지
  - 서로 다른 노이즈 그룹이 서로의 정보를 보지 못하게 함
Attention Mask 없이 Denoising Training 시 성능 저하

3. 성능 및 의의

빠른 학습 수렴
- 초기 학습 단계부터 GT에 가까운 예측을 하게 만들어, DETR보다 훨씬 적은 Epoch에서도 높은 성능 (예: COCO에서 500→12 Epoch 차이)
정확도 향상
- 노이즈를 제거하면서 모델이 다양한 변형에 견고해짐

4. 향후 확장 방안

Zero-shot or Open Set Detection
- 사전 학습된 언어 모델(예: CLIP)로 클래스 라벨 임베딩 생성
- 학습 안 된 클래스(예: elephant, giraffe)에 대해서도 임베딩을 만들어 Query로 삽입 → 새로운 클래스 감지
Progressive Inference
- 가장 높은 점수 물체부터 순차적 검출 + 추가 탐지 → 결과 점진적 정제
Classification before Detection
- Multi-Label Classification 네트워크로 클래스 라벨 예측 → DN-DETR Query에 전달 → 감지 성능 향상

5. 요약

DN-DETR:
- DAB-DETR 기반으로 DeNoising Queries 도입
- 노이즈 추가(박스+라벨) 및 Attention Mask로 빠른 수렴 + 우수 성능
- 향후 Zero-shot Detection, Progressive Inference 등으로 확대 가능

'Paper Review > Detection & Segmentation' 카테고리의 다른 글

[딥러닝을 활용한 의료 영상 처리 & 모델 개발] Part 2-4. Resource Optimized Neural Architecture Search for 3D Medical Image Segmentation (0)	2025.01.08
[OUTTA Alpha팀 논문 리뷰 요약] Part 5-2. YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information Chien ( + YOLOv5, YOLOv11) (0)	2025.01.03
[OUTTA Alpha팀 논문 리뷰] Part 4-2. DETR , Deformable DETR (0)	2024.12.29
[OUTTA Alpha팀 논문 리뷰] Part 3-1. YOLO, SSD (1)	2024.12.28
[OUTTA Alpha팀 논문 리뷰] Part 2-1. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks (0)	2024.12.28

현재글[OUTTA Alpha팀 논문 리뷰 요약] Part 4-4. DN-DETR: Accelerate DETR Training byIntroducing Query DeNoising

연주의 공부 기록

내가 보려고 만든 블로그💻 논문 & 코드 리뷰 및 이론 정리.

classification, regression, Distillation, maetok, medvit, LSTM, neuralrecon, ResNet, RNN, DDPM, multi-modal transformer architecture for medical image analysis and automated report generation, keras, tinyface, pytorch, patches are all you need?, selfmedmae, voxelnet, medvitv2, chexzero, transformer,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

연주의 공부 기록

[OUTTA Alpha팀 논문 리뷰 요약] Part 4-4. DN-DETR: Accelerate DETR Training byIntroducing Query DeNoising

1. 배경 및 목표

2. 주요 아이디어

3. 성능 및 의의

4. 향후 확장 방안

5. 요약

'Paper Review > Detection & Segmentation' 카테고리의 다른 글

'Paper Review/Detection & Segmentation'의 다른글

티스토리툴바

[OUTTA Alpha팀 논문 리뷰 요약] Part 4-4. DN-DETR: Accelerate DETR Training byIntroducing Query DeNoising

1. 배경 및 목표

2. 주요 아이디어

3. 성능 및 의의

4. 향후 확장 방안

5. 요약

'Paper Review > Detection & Segmentation' 카테고리의 다른 글

'Paper Review/Detection & Segmentation'의 다른글

관련글

티스토리툴바