Paper Review/Detection & Segmentation 12

[OUTTA Alpha팀 논문 리뷰] Part 19-1. Finding Tiny Face

논문 링크: 1612.04402코드 링크: https://www.cs.cmu.edu/~peiyunh/tinyPeiyun Hu, Deva RamananRobotics Institute, Carnegie Mellon University(arXiv:1612.04402v2, 2017년 4월 15일)1. Introductionsmall object detection는 풀리지 않은 중요한 문제이다.본 논문은 small faces를 탐지하는 context에서 다음 세 가지 문제를 다룬다:Scale InvarianceImage ResolutionContextual ReasoningScale Invariance 한계대부분의 최신 object detection 시스템은 scale-invariant한 특성을 지향한다. 하지..

[OUTTA Alpha팀 논문 리뷰] Part 14-1. VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection

논문 링크: 1711.06396저자: Yin Zhou, Oncel Tuzel (Apple Inc)발행일: 2017. 11. 170. Abstract3D 객체 탐지의 새로운 패러다임, VoxelNet3D 포인트 클라우드에서 정확한 객체 탐지는 자율 주행, 가정용 로봇, 증강·가상 현실 등 다양한 분야에서 중요한 문제다. 기존의 방법들은 Bird’s Eye View(BEV) 프로젝션과 같은 수동적 특징 공학(feature engineering) 기법을 활용해 포인트 클라우드를 Region Proposal Network(RPN)과 연계하는 방식에 의존해왔다. 하지만, 이러한 기법은 3D 정보를 충분히 활용하지 못하는 한계를 갖는다.이를 해결하기 위해, 본 논문에서는 VoxelNet을 제안한다. VoxelNet..

[OUTTA Alpha팀 논문 리뷰] 13-1. VoteNet: Deep Hough Voting for 3D Object Detection in Point Clouds

논문 링크: 1904.09664저자:Charles R. Qi (Facebook AI Research)Or Litany (Facebook AI Research)Kaiming He (Facebook AI Research)Leonidas J. Guibas (Facebook AI Research, Stanford University)발행일: 2019. 08. 221. Introduction3D 객체 탐지의 핵심 목표는 3D 장면에서 객체를 찾아(3D 바운딩 박스) 분류(semantic class)하는 것이다. 이미지를 통한 2D 객체 탐지와 달리, 포인트 클라우드(point cloud)는 객체의 정확한 기하학 정보를 직접 제공하므로 조명 변화 등에 강인한 장점이 있다. 하지만 포인트 클라우드는 불규칙(spars..

[OUTTA Alpha팀 논문 리뷰] Part 10-2. SLEAP: A deep learning system for multi-animal pose tracking

논문 링크: SLEAP: A deep learning system for multi-animal pose tracking | Nature Methods1. Introduction동물 행동 연구에서 정량적 측정의 중요성자세 추정(Pose Estimation)은 신경과학, 생태학 등의 분야에서 필수적인 기술.인간 자세 추정 기술을 응용하여 단일 개체의 자세 추정이 가능하지만, 다중 개체 추적에는 어려움이 존재.다중 개체 자세 추정의 난제같은 이미지 내에서 여러 개체의 자세를 정확하게 분류(Part Grouping)해야 함.연속된 프레임에서 같은 개체를 식별하는 Identity Tracking 문제.기존 방법들은 Bottom-up (부위 검출 후 그룹화) 또는 Top-down (개체 검출 후 부위 추정) 방식..

[OUTTA Alpha팀 논문 리뷰 요약] Part 7-3. Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

논문 링크: https://arxiv.org/abs/2103.14030 Swin Transformer: Hierarchical Vision Transformer using Shifted WindowsThis paper presents a new vision Transformer, called Swin Transformer, that capably serves as a general-purpose backbone for computer vision. Challenges in adapting Transformer from language to vision arise from differences between the two domains, such asarxiv.org참고 유튜브: https://youtu..

[딥러닝을 활용한 의료 영상 처리 & 모델 개발] Part 2-4. Resource Optimized Neural Architecture Search for 3D Medical Image Segmentation

논문 링크: https://arxiv.org/pdf/1909.005481909.005481. Introduction & AbstractNetwork Architecture Search(NAS)Neural Networks의 최적 구조를 자동으로 탐색하는 방법론Natural image 분야에서 활발히 사용연구 배경3D Medical Image Segmentation에 NAS를 적용한 선행 연구가 적음3D 볼륨 데이터 특성상 시간·계산량이 매우 큼 → 자원(Resource) 문제가 큼연구 목표작은 컴퓨팅 자원으로도 3D 의료영상에 NAS를 효율적으로 적용Resource를 최적화하며 최적 세그멘테이션 모델을 찾는 방법 제안2. Related work2.1 Why need NAS?성능 최적화를 위해 기존에는 연구..

[OUTTA Alpha팀 논문 리뷰 요약] Part 5-2. YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information Chien ( + YOLOv5, YOLOv11)

YOLOv9 논문 링크: 2402.13616YOLOv11 논문 링크: https://arxiv.org/pdf/2410.17725Abstract문제: 기존 방법에서 발생하는 정보 손실 문제.주요 원인: Information Bottleneck.해결 목표: 신뢰 가능한 Gradient 정보 생성.제안:PGI (Programmable Gradient Information):완전한 Input Information 제공.신뢰 가능한 Gradient 정보 생성.GELAN (Generalized Efficient Layer Aggregation Network):Gradient Path Planning 기반 경량 네트워크 아키텍처 설계.검증: COCO 데이터셋에서 PGI와 GELAN의 성능 평가.1. Introduct..

[OUTTA Alpha팀 논문 리뷰 요약] Part 4-4. DN-DETR: Accelerate DETR Training byIntroducing Query DeNoising

논문 링크: https://arxiv.org/pdf/2203.013051. 배경 및 목표DETR (DEtection TRansformer)는 객체 검출에서 이분 매칭(bipartite matching)을 통해 Post-processing 없이 직접 박스를 예측하지만,학습 속도 느림, 매칭 과정 불안정 → 빠른 수렴이 어려움DN-DETR은 Denoising Training으로 학습 초기부터 모델이 정확한 예측을 하도록 유도 → 빠른 수렴 + 높은 정확도 달성 DeNoising Queries: 의도적으로 노이즈를 추가해 학습 시 더 다양한 위치/조건에서도 정확한 추론을 수행하도록 함2. 주요 아이디어DAB-DETR 구조 기반DAB-DETR는 4D 앵커 박스($x,y,w,h$)를 Learnable Parame..

[OUTTA Alpha팀 논문 리뷰] Part 4-2. DETR , Deformable DETR

DETR 논문 링크: https://arxiv.org/abs/2005.12872 End-to-End Object Detection with TransformersWe present a new method that views object detection as a direct set prediction problem. Our approach streamlines the detection pipeline, effectively removing the need for many hand-designed components like a non-maximum suppression procedure or anchor genearxiv.orgDeformable DETR 논문 링크: https://arxiv.org/ab..

[OUTTA Alpha팀 논문 리뷰] Part 3-1. YOLO, SSD

논문 링크: https://arxiv.org/pdf/1512.023251. YOLO (You Only Look Once)1. 기존 방식(2 stage)와의 차이R-CNN 계열: Region Proposal 생성 → Classification(2단계)구조 복잡 → 연산량 많고 느림각 단계 최적화도 별도로 진행 → 전체적으로 어렵YOLO: 1 stage로 Bounding Box와 Classification을 동시에 예측2. 아이디어: Unified Detection입력 이미지를 $S \times S$ 그리드로 나눔각 Grid Cell마다 $B$개의 Bounding Box와 Confidence Score를 예측동시에 Class Probability($P(\text{Class}|\text{Object})$)도 ..