논문 링크: https://arxiv.org/pdf/2203.01305
OUTTA 논문 리뷰 링크: [2024-2] 주서영 - DN-DETR: Accelerate DETR Training byIntroducing Query DeNoising
[2024-2] 주서영 - DN-DETR: Accelerate DETR Training byIntroducing Query DeNoising
https://arxiv.org/pdf/2203.01305 DN-DETR은 DETR(DEtection TRansformer) 모델의 불안정한 이분 매칭(bipartite matching) 문제를 개선하기 위해 제안된 모델이다. denoising training을 통해 훈련에서의 빠른 수렴과 높은 정
blog.outta.ai
1. 배경 및 목표
- DETR (DEtection TRansformer)는 객체 검출에서 이분 매칭(bipartite matching)을 통해 Post-processing 없이 직접 박스를 예측하지만,
- 학습 속도 느림, 매칭 과정 불안정 → 빠른 수렴이 어려움
- DN-DETR은 Denoising Training으로 학습 초기부터 모델이 정확한 예측을 하도록 유도 → 빠른 수렴 + 높은 정확도 달성
- DeNoising Queries: 의도적으로 노이즈를 추가해 학습 시 더 다양한 위치/조건에서도 정확한 추론을 수행하도록 함
2. 주요 아이디어
- DAB-DETR 구조 기반
- DAB-DETR는 4D 앵커 박스($x,y,w,h$)를 Learnable Parameter로 사용
- Class Label Embedding + Indicator로 객체 클래스 정보와 노이즈/실제 객체 구분
- Noising Queries
- Box Noising:
- 중심좌표($x,y$)에 랜덤 이동, 크기($w,h$) 축소/확대 등
- Label Noising:
- 실제 라벨 대신 다른 라벨을 임의로 제공
- 모델이 노이즈 제거(De-Noise) 과정을 학습하며 정확한 예측을 하게 됨
- Reconstruction Loss
- 박스: $L_1$ + GIoU Loss
- 클래스: Focal Loss 사용
- Box Noising:
- Attention Mask
- 정보 누출(Information Leakage) 방지
- 2가지 정보 누출 방지:
- Denoising part vs Matching part 간 상호 참조 방지
- Denoising part가 GT와 가깝기 때문에 Matching part에 영향을 주면 학습 편향
- 노이즈 그룹 간 상호 참조 방지
- 서로 다른 노이즈 그룹이 서로의 정보를 보지 못하게 함
- Denoising part vs Matching part 간 상호 참조 방지
- Attention Mask 없이 Denoising Training 시 성능 저하
3. 성능 및 의의
- 빠른 학습 수렴
- 초기 학습 단계부터 GT에 가까운 예측을 하게 만들어, DETR보다 훨씬 적은 Epoch에서도 높은 성능 (예: COCO에서 500→12 Epoch 차이)
- 정확도 향상
- 노이즈를 제거하면서 모델이 다양한 변형에 견고해짐
4. 향후 확장 방안
- Zero-shot or Open Set Detection
- 사전 학습된 언어 모델(예: CLIP)로 클래스 라벨 임베딩 생성
- 학습 안 된 클래스(예: elephant, giraffe)에 대해서도 임베딩을 만들어 Query로 삽입 → 새로운 클래스 감지
- Progressive Inference
- 가장 높은 점수 물체부터 순차적 검출 + 추가 탐지 → 결과 점진적 정제
- Classification before Detection
- Multi-Label Classification 네트워크로 클래스 라벨 예측 → DN-DETR Query에 전달 → 감지 성능 향상
5. 요약
- DN-DETR:
- DAB-DETR 기반으로 DeNoising Queries 도입
- 노이즈 추가(박스+라벨) 및 Attention Mask로 빠른 수렴 + 우수 성능
- 향후 Zero-shot Detection, Progressive Inference 등으로 확대 가능