Paper Review/Detection & Segmentation 12

[OUTTA Alpha팀 논문 리뷰] 13-1. VoteNet: Deep Hough Voting for 3D Object Detection in Point Clouds

논문 링크: 1904.09664저자:Charles R. Qi (Facebook AI Research)Or Litany (Facebook AI Research)Kaiming He (Facebook AI Research)Leonidas J. Guibas (Facebook AI Research, Stanford University)발행일: 2019. 08. 22Abstract기존 3D 객체 탐지 방식과 한계현재 3D 객체 탐지 기법들은 2D 탐지기에 크게 의존함.이를 위해 3D 포인트 클라우드를 정규화된 grid(격자) 형태로 변환하거나, 2D 이미지에서 객체를 탐지한 후 3D 박스를 제안하는 방식을 사용함.하지만 포인트 클라우드에서 직접 3D 객체를 탐지하는 연구가 거의 이루어지지 않음.새로운 3D 객체 탐..

[OUTTA Alpha팀 논문 리뷰 요약] Part 10-4. SAM: Segment Anything Model

논문 링크: arxiv.org/pdf/2304.02643 OUTTA 논문 리뷰 링크: [2025-1] 김경훈 - SAM (Segment Anything Model) [2025-1] 김경훈 - SAM (Segment Anything Model)원본 논문 링크 : https://arxiv.org/abs/2304.02643 Segment AnythingWe introduce the Segment Anything (SA) project: a new task, model, and dataset for image segmentation. Using our efficient model in a data collection loop, we built the largest segmenblog.outta.ai1. Abst..

[OUTTA Alpha팀 논문 리뷰] Part 10-2. SLEAP: A deep learning system for multi-animal pose tracking

논문 링크: SLEAP: A deep learning system for multi-animal pose tracking | Nature Methods1. Introduction동물 행동 연구에서 정량적 측정의 중요성자세 추정(Pose Estimation)은 신경과학, 생태학 등의 분야에서 필수적인 기술.인간 자세 추정 기술을 응용하여 단일 개체의 자세 추정이 가능하지만, 다중 개체 추적에는 어려움이 존재.다중 개체 자세 추정의 난제같은 이미지 내에서 여러 개체의 자세를 정확하게 분류(Part Grouping)해야 함.연속된 프레임에서 같은 개체를 식별하는 Identity Tracking 문제.기존 방법들은 Bottom-up (부위 검출 후 그룹화) 또는 Top-down (개체 검출 후 부위 추정) 방식..

[OUTTA Alpha팀 논문 리뷰 요약] Part 7-3. Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

논문 링크: https://arxiv.org/abs/2103.14030 Swin Transformer: Hierarchical Vision Transformer using Shifted WindowsThis paper presents a new vision Transformer, called Swin Transformer, that capably serves as a general-purpose backbone for computer vision. Challenges in adapting Transformer from language to vision arise from differences between the two domains, such asarxiv.org OUTTA 논문 리뷰 링크: [2025..

[OUTTA Alpha팀 논문 리뷰 요약] Part 7-2. ResUNet: Road Extraction by Deep Residual U-Net

논문 링크: https://arxiv.org/pdf/1711.10684  OUTTA 논문 리뷰 링크: [2025-1] 유경석 - Road Extraction by Deep Residual U-Net [2025-1] 유경석 - Road Extraction by Deep Residual U-Nethttps://arxiv.org/pdf/1711.10684AbstractRoad extraction은 원격 감지 이미지 분석 분야의 뜨거운 연구 주제Residual learning과 U-Net의 결합 구조를 통해 Road extraction 수행 1) Residual unit은 Deep network의 training이 더욱blog.outta.ai1. AbstractRoad extraction은 고해상도 원격 감지 ..

[딥러닝을 활용한 의료 영상 처리 & 모델 개발] Part 2-4. Resource Optimized Neural Architecture Search for 3D Medical Image Segmentation

논문 링크: https://arxiv.org/pdf/1909.005481909.005481. Introduction & AbstractNetwork Architecture Search(NAS)Neural Networks의 최적 구조를 자동으로 탐색하는 방법론Natural image 분야에서 활발히 사용연구 배경3D Medical Image Segmentation에 NAS를 적용한 선행 연구가 적음3D 볼륨 데이터 특성상 시간·계산량이 매우 큼 → 자원(Resource) 문제가 큼연구 목표작은 컴퓨팅 자원으로도 3D 의료영상에 NAS를 효율적으로 적용Resource를 최적화하며 최적 세그멘테이션 모델을 찾는 방법 제안2. Related work2.1 Why need NAS?성능 최적화를 위해 기존에는 연구..

[OUTTA Alpha팀 논문 리뷰 요약] Part 5-2. YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information Chien ( + YOLOv5, YOLOv11)

YOLOv9 논문 링크: 2402.13616YOLOv11 논문 링크: https://arxiv.org/pdf/2410.17725 OUTTA 논문 리뷰 링크: [2024-2] 유경석 - YOLOv5, YOLOv9, YOLOv11 [2024-2] 유경석 - YOLOv5, YOLOv9, YOLOv11[YOLOv5]https://arxiv.org/pdf/2304.00501v6 YOLOv5는 따로 오피셜 논문이 있지는 않지만, 위 survey 논문에서 YOLOv5의 구조와 특징에 대해 간략하게 설명하였다.YOLOv5YOLOv4 이후 몇 달만에 출시한 경량화 모델로,blog.outta.aiAbstract문제: 기존 방법에서 발생하는 정보 손실 문제.주요 원인: Information Bottleneck.해결 목표: ..

[OUTTA Alpha팀 논문 리뷰 요약] Part 4-4. DN-DETR: Accelerate DETR Training byIntroducing Query DeNoising

논문 링크: https://arxiv.org/pdf/2203.01305 OUTTA 논문 리뷰 링크: [2024-2] 주서영 - DN-DETR: Accelerate DETR Training byIntroducing Query DeNoising [2024-2] 주서영 - DN-DETR: Accelerate DETR Training byIntroducing Query DeNoisinghttps://arxiv.org/pdf/2203.01305 DN-DETR은 DETR(DEtection TRansformer) 모델의 불안정한 이분 매칭(bipartite matching) 문제를 개선하기 위해 제안된 모델이다. denoising training을 통해 훈련에서의 빠른 수렴과 높은 정blog.outta.ai1. 배경..

[OUTTA Alpha팀 논문 리뷰 요약] Part 4-2. DETR , Deformable DETR

DETR 논문 링크: https://arxiv.org/abs/2005.12872  End-to-End Object Detection with TransformersWe present a new method that views object detection as a direct set prediction problem. Our approach streamlines the detection pipeline, effectively removing the need for many hand-designed components like a non-maximum suppression procedure or anchor genearxiv.org Deformable DETR 논문 링크: https://arxiv.org/..

[OUTTA Alpha팀 논문 리뷰 요약] Part 3-1. YOLO, SSD

논문 링크: https://arxiv.org/pdf/1512.02325 OUTTA 논문 리뷰 링크:  [2024-2] 조환희 YOLO, SSD [2024-2] 조환희 YOLO, SSDYOLO (You Only Look Once)R-CNN과 같은 Object dectection 방법은 이미지 안에서 obejct가 존재할만한 region을 추출해내는 과정(region proposal)을 수행한 후에, 추출된 region proposal에서 classification을 수행한다. regioblog.outta.ai1. YOLO (You Only Look Once)1. 기존 방식(2 stage)와의 차이R-CNN 계열: Region Proposal 생성 → Classification(2단계)구조 복잡 → 연산량 ..