Paper Review 61

[OUTTA Alpha팀 논문 리뷰] 13-1. VoteNet: Deep Hough Voting for 3D Object Detection in Point Clouds

논문 링크: 1904.09664저자:Charles R. Qi (Facebook AI Research)Or Litany (Facebook AI Research)Kaiming He (Facebook AI Research)Leonidas J. Guibas (Facebook AI Research, Stanford University)발행일: 2019. 08. 22Abstract기존 3D 객체 탐지 방식과 한계현재 3D 객체 탐지 기법들은 2D 탐지기에 크게 의존함.이를 위해 3D 포인트 클라우드를 정규화된 grid(격자) 형태로 변환하거나, 2D 이미지에서 객체를 탐지한 후 3D 박스를 제안하는 방식을 사용함.하지만 포인트 클라우드에서 직접 3D 객체를 탐지하는 연구가 거의 이루어지지 않음.새로운 3D 객체 탐..

[OUTTA Alpha팀 논문 리뷰] Part 12-1. Deep-Emotion: Facial Expression Recognition Using Attentional Convolutional Network

논문 링크: 1902.01019저자: Shervin Minaee (Expedia Group), Amirali Abdolrashidi (University of California, Riverside)발행일: 2019. 2. 4Abstract얼굴 표정 인식(Facial Expression Recognition, FER)은 지난 수십 년 동안 활발히 연구되어 온 분야이며, 여전히 높은 intra-class variation(동일한 감정이라도 다양한 표정이 존재하는 문제) 때문에 어려운 과제이다.기존 방법들은 SIFT, HOG, LBP와 같은 hand-crafted feature(사전에 정의된 특징)를 추출한 후, 특정 이미지 또는 비디오 데이터베이스에서 학습된 분류기를 사용하여 얼굴 표정을 인식하는 방식이 ..

[OUTTA Alpha팀 논문 리뷰 요약] Part 11-5. MAE: Masked Autoencoders Are Scalable Vision Learners

논문 링크: https://arxiv.org/abs/2111.06377 Masked Autoencoders Are Scalable Vision LearnersThis paper shows that masked autoencoders (MAE) are scalable self-supervised learners for computer vision. Our MAE approach is simple: we mask random patches of the input image and reconstruct the missing pixels. It is based on two core designs. First, wearxiv.org OUTTA 논문 리뷰 링크: [2025-1] 이재호 - Masked Autoenc..

[OUTTA Alpha팀 논문 리뷰 요약] Part 11-4. ControlNet: Adding Conditional Control to Text-to-Image Diffusion Models

논문 링크: https://arxiv.org/pdf/2302.05543 OUTTA 논문 리뷰 링크: [2025-1] 주서영 - Adding Conditional Control to Text-to-Image Diffusion Models [2025-1] 주서영 - Adding Conditional Control to Text-to-Image Diffusion ModelsControlNetGitHub GitHub - lllyasviel/ControlNet: Let us control diffusion models!Let us control diffusion models! Contribute to lllyasviel/ControlNet development by creating an account on Git..

[OUTTA Alpha팀 논문 리뷰 요약] Part 11-3. VoxelMorph: A Learning Framework for Deformable Medical Image Registration

논문 링크: 1809.05231 OUTTA 논문 리뷰 링크: [2024-2] 백승우 - VoxelMorph: A Learning Framework for Deformable Medical Image Registration [2024-2] 백승우 - VoxelMorph: A Learning Framework for Deformable Medical Image RegistrationVoxelMorph: A Learning Framework for Deformable Medical Image RegistrationWe present VoxelMorph, a fast learning-based framework for deformable, pairwise medical image registration. Tra..

[OUTTA Alpha팀 논문 리뷰] Part 11-2. Inpaint Anything: Segment Anything Meets Image Inpainting

논문 링크: 2304.067901. IAbstract 기존 이미지 인페인팅 기술은 마스크 선택 및 홀 채우기에 어려움을 겪음.Inpaint Anything (IA)는 Segment Anything Model (SAM) 기반의 클릭 기반 인페인팅을 도입하여 사용자 친화적인 워크플로우 제공.주요 기능Remove Anything: 클릭한 객체 제거 후 자연스럽게 배경 복원.Fill Anything: 제거된 영역을 텍스트 프롬프트 기반으로 새 콘텐츠 생성하여 채움.Replace Anything: 클릭한 객체를 유지한 채 배경을 새로운 장면으로 변경.2. Related Works2.1 Motivation and Observation 최신 인페인팅 기법(LaMa, Repaint, MAT, ZITS 등)은 복잡한 구..

[OUTTA Alpha팀 논문 리뷰] Part 11-1. RePaint: Inpainting using Denoising Diffusion Probabilistic Models

논문 링크: 2201.09865저자: Andreas Lugmayr, Martin Danelljan, Andres Romero, Fisher Yu, Radu Timofte, Luc Van Gool소속: Computer Vision Lab, ETH Z¨ urich, Switzerland 발행일: 2022 8월 31일1. AbstractFree-form Inpainting은 이미지에서 임의의 바이너리 마스크로 지정된 영역에 새로운 콘텐츠를 추가하는 작업이다.기존 방법들은 특정 마스크 분포에 대해 훈련되며, 이로 인해 보지 못한 새로운 마스크 유형에 대한 일반화 성능이 제한된다.또한, 픽셀 단위 및 perceptual loss 기반의 훈련 방식은 종종 단순한 텍스처 확장에만 집중하며, 의미론적으로 자연스러운 생..

[OUTTA Alpha팀 논문 리뷰 요약] Part 10-8. Titans: Learning to Memorize at Test Time

논문 링크: https://arxiv.org/abs/2501.00663  Titans: Learning to Memorize at Test TimeOver more than a decade there has been an extensive research effort on how to effectively utilize recurrent models and attention. While recurrent models aim to compress the data into a fixed-size memory (called hidden state), attention allows attending toarxiv.org OUTTA 논문 리뷰 링크: [2025-1] Titans: Learning to Memori..

[OUTTA Alpha팀 논문 리뷰 요약] Part 10-7. MAISI: Medical AI for Synthetic Imaging(3D CT 이미지 생성 모델)

논문 링크: https://arxiv.org/pdf/2409.11169v2 OUTTA 논문 리뷰 링크: [2025-1] 유경석 - MAISI: Medical AI for Synthetic Imaging [2025-1] 유경석 - MAISI: Medical AI for Synthetic Imaginghttps://arxiv.org/pdf/2409.11169v2 https://build.nvidia.com/nvidia/maisi maisi Model by NVIDIA | NVIDIA NIMMAISI is a pre-trained volumetric (3D) CT Latent Diffusion Generative Model.build.nvidia.com AbstractMAISI (Medical AI for S..

[OUTTA Alpha팀 논문 리뷰] Part 10-6. Knowledge Distillation 변천사

논문 링크 1: Distilling the Knowledge in a Neural Network: 1503.02531논문 링크 2: Knowledge Transfer via Distillation of Activation Boundaries Formed by Hidden Neurons: 1811.03233논문 링크 3: Relational Knowledge Distillation: 1904.05068논문 링크 4: LARGE SCALE DISTRIBUTED NEURAL NETWORK TRAINING THROUGH ONLINE DISTILLATION: 1804.03235논문 링크 5: Be Your OwnTeacher: Improve the Performance of Convolutional Neural ..