Paper Review 64

[OUTTA Alpha팀 논문 리뷰 요약] Part 5-2. YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information Chien ( + YOLOv5, YOLOv11)

YOLOv9 논문 링크: 2402.13616YOLOv11 논문 링크: https://arxiv.org/pdf/2410.17725Abstract문제: 기존 방법에서 발생하는 정보 손실 문제.주요 원인: Information Bottleneck.해결 목표: 신뢰 가능한 Gradient 정보 생성.제안:PGI (Programmable Gradient Information):완전한 Input Information 제공.신뢰 가능한 Gradient 정보 생성.GELAN (Generalized Efficient Layer Aggregation Network):Gradient Path Planning 기반 경량 네트워크 아키텍처 설계.검증: COCO 데이터셋에서 PGI와 GELAN의 성능 평가.1. Introduct..

[OUTTA Alpha팀 논문 리뷰 요약] Part 5-1. SENet: Squeeze-and-Excitation Networks

논문 링크: 1709.015071. Introduction기존의 CNN은 지역적인 수용 영역 내에서 공간적 및 채널 정보를 융합하여 특징을 추출함.그러나 대부분의 연구는 공간적 관계에 집중하였으며, 채널 간 상호의존성에 대한 연구는 부족했음.이에 저자들은 채널 간 관계를 명시적으로 모델링하여 네트워크의 표현력을 향상시키고자 함.2. Related WorkVGGNet, Inception 모델 등은 네트워크를 깊게 하여 성능을 향상시킴.Batch Normalization(BN)은 레이어 입력을 정규화하여 그래디언트 전파를 향상시킴.ResNet은 스킵 커넥션을 통해 효율성을 보임.이전 연구에서는 모델의 크기와 계산량을 줄이기 위해 채널 간 상호작용을 다루었으나, 이는 주로 지역적인 수용 영역에서 인스턴스에 무..

[OUTTA Alpha팀 논문 리뷰] EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks

논문 링크: EfficientNet: Rethinking Model Scaling for Convolutional Neural NetworksEfficientNet은 모델의 크기를 확장하는 방법(Scaling)을 새롭게 정립하고, 그 결과 훨씬 효율적인 CNN 구조를 제시한다.이를 이해하기 위해서는 먼저 NASNet과 MnasNet 같은 Neural Architecture Search(NAS) 기반 모델들이 어떤 배경에서 나왔고, 어떻게 발전했는지를 파악할 필요가 있다.더보기NASNet, MnasNet 논문 리뷰 링크: https://blog.outta.ai/102 [2024-2] 정인아 - Learning Transferable Architectures for Scalable Image Recognit..

[OUTTA Alpha팀 논문 리뷰 요약] Part 4-4. DN-DETR: Accelerate DETR Training byIntroducing Query DeNoising

논문 링크: https://arxiv.org/pdf/2203.013051. 배경 및 목표DETR (DEtection TRansformer)는 객체 검출에서 이분 매칭(bipartite matching)을 통해 Post-processing 없이 직접 박스를 예측하지만,학습 속도 느림, 매칭 과정 불안정 → 빠른 수렴이 어려움DN-DETR은 Denoising Training으로 학습 초기부터 모델이 정확한 예측을 하도록 유도 → 빠른 수렴 + 높은 정확도 달성 DeNoising Queries: 의도적으로 노이즈를 추가해 학습 시 더 다양한 위치/조건에서도 정확한 추론을 수행하도록 함2. 주요 아이디어DAB-DETR 구조 기반DAB-DETR는 4D 앵커 박스($x,y,w,h$)를 Learnable Parame..

[OUTTA Alpha팀 논문 리뷰 요약] Part 4-3. GCN (Graph Convolutional Networks)

논문 링크: https://arxiv.org/abs/1609.02907 Semi-Supervised Classification with Graph Convolutional NetworksWe present a scalable approach for semi-supervised learning on graph-structured data that is based on an efficient variant of convolutional neural networks which operate directly on graphs. We motivate the choice of our convolutional architecture via a locarxiv.org 유튜브 설명 링크: https://youtu.be/..

[OUTTA Alpha팀 논문 리뷰] Part 4-2. DETR , Deformable DETR

DETR 논문 링크: https://arxiv.org/abs/2005.12872 End-to-End Object Detection with TransformersWe present a new method that views object detection as a direct set prediction problem. Our approach streamlines the detection pipeline, effectively removing the need for many hand-designed components like a non-maximum suppression procedure or anchor genearxiv.orgDeformable DETR 논문 링크: https://arxiv.org/ab..

[OUTTA Alpha팀 논문 리뷰] Part 4-1. Learning Transferable Architectures for Scalable Image Recognition, MnasNet: Platform-Aware Neural Architecture Search for Mobile

NasNet 논문 링크: https://arxiv.org/abs/1707.07012 Learning Transferable Architectures for Scalable Image RecognitionDeveloping neural network image classification models often requires significant architecture engineering. In this paper, we study a method to learn the model architectures directly on the dataset of interest. As this approach is expensive when the datasetarxiv.org MnasNet 논문 링크: htt..

[OUTTA Alpha팀 논문 리뷰] Part 3-4. GAN(Generative Adversarial Networks), Conditional GAN

논문 링크1: https://arxiv.org/abs/1406.2661Ian J. Goodfellow et al., 2014, NIPS Generative Adversarial NetworksWe propose a new framework for estimating generative models via an adversarial process, in which we simultaneously train two models: a generative model G that captures the data distribution, and a discriminative model D that estimates the probability thatarxiv.org 논문 링크2: https://arxiv.org/..

[OUTTA Alpha팀 논문 리뷰] Part 3-1. YOLO, SSD

논문 링크: https://arxiv.org/pdf/1512.023251. YOLO (You Only Look Once)1. 기존 방식(2 stage)와의 차이R-CNN 계열: Region Proposal 생성 → Classification(2단계)구조 복잡 → 연산량 많고 느림각 단계 최적화도 별도로 진행 → 전체적으로 어렵YOLO: 1 stage로 Bounding Box와 Classification을 동시에 예측2. 아이디어: Unified Detection입력 이미지를 $S \times S$ 그리드로 나눔각 Grid Cell마다 $B$개의 Bounding Box와 Confidence Score를 예측동시에 Class Probability($P(\text{Class}|\text{Object})$)도 ..

[OUTTA Alpha팀 논문 리뷰] Part 2-2. SqueezeNet, ShuffleNet

SqueezeNet 논문 링크: [1602.07360] SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and Recent research on deep neural networks has focused primarily on improving accuracy. For a given accuracy level, it is typically possible to identify multiple DNN architectures that achieve that accuracy level. With equivalent accuracy,..