Paper Review 64

[OUTTA Alpha팀 논문 리뷰] Part 15-1. Multi‑modal transformer architecture for medical image analysis and automated report generation

논문 링크: https://www.nature.com/articles/s41598-024-69981-5.pdf 저자: Santhosh Raminedi, S. Shridevi  & Daehan Won학회: Scientific Reports (Nature Publishing Group) 발행일: 20 August 2024  Keywords: Vision transformer, Generative pre-trained transformer, Retrieval augmentation Introduction1. 배경X-ray 및 MRI(Magnetic Resonance Imaging)와 같은 의료 영상 기술은 인체 내부를 시각화하여 질병을 진단하는 데 중요한 역할을 한다.그러나 방사선 영상(radiologica..

[OUTTA Alpha팀 논문 리뷰] Part 14-1. VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection

논문 링크: 1711.06396저자: Yin Zhou, Oncel Tuzel (Apple Inc)발행일: 2017. 11. 170. Abstract3D 객체 탐지의 새로운 패러다임, VoxelNet3D 포인트 클라우드에서 정확한 객체 탐지는 자율 주행, 가정용 로봇, 증강·가상 현실 등 다양한 분야에서 중요한 문제다. 기존의 방법들은 Bird’s Eye View(BEV) 프로젝션과 같은 수동적 특징 공학(feature engineering) 기법을 활용해 포인트 클라우드를 Region Proposal Network(RPN)과 연계하는 방식에 의존해왔다. 하지만, 이러한 기법은 3D 정보를 충분히 활용하지 못하는 한계를 갖는다.이를 해결하기 위해, 본 논문에서는 VoxelNet을 제안한다. VoxelNet..

[Euron 8th Research 논문 리뷰] ResNet: Deep Residual Learning for Image Recognition

논문 링크: 1512.03385저자: Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun소속: Microsoft Research발행일: 2015. 12. 10CVPR 2016 논문 (Computer Vision and Pattern Recognition, 2016)발표자료:0. Abstract딥 컨볼루션 신경망(Deep Convolutional Neural Networks, CNN)은 이미지 분류 분야에서 연이은 돌파구를 마련하며, 다양한 비전 인식(visual recognition) 과제에서 큰 성능 향상을 가져왔다. 하지만, 단순히 네트워크의 층을 깊게 쌓는 것만으로 더 나은 성능을 보장할 수 있을까?ResNet(Residual Network)은 이러한 질문에서 ..

[OUTTA Alpha팀 논문 리뷰] 13-1. VoteNet: Deep Hough Voting for 3D Object Detection in Point Clouds

논문 링크: 1904.09664저자:Charles R. Qi (Facebook AI Research)Or Litany (Facebook AI Research)Kaiming He (Facebook AI Research)Leonidas J. Guibas (Facebook AI Research, Stanford University)발행일: 2019. 08. 221. Introduction3D 객체 탐지의 핵심 목표는 3D 장면에서 객체를 찾아(3D 바운딩 박스) 분류(semantic class)하는 것이다. 이미지를 통한 2D 객체 탐지와 달리, 포인트 클라우드(point cloud)는 객체의 정확한 기하학 정보를 직접 제공하므로 조명 변화 등에 강인한 장점이 있다. 하지만 포인트 클라우드는 불규칙(spars..

[OUTTA Alpha팀 논문 리뷰] Part 11-5. MAE: Masked Autoencoders Are Scalable Vision Learners

논문 링크: https://arxiv.org/abs/2111.06377 Masked Autoencoders Are Scalable Vision LearnersThis paper shows that masked autoencoders (MAE) are scalable self-supervised learners for computer vision. Our MAE approach is simple: we mask random patches of the input image and reconstruct the missing pixels. It is based on two core designs. First, wearxiv.org깃허브 주소: mae/models_mae.py at main · facebookre..

[OUTTA Alpha팀 논문 리뷰] Part 11-3. VoxelMorph: A Learning Framework for Deformable Medical Image Registration

논문 링크: 1809.052310. AbstractVoxelMorph은 변형 가능한 pair별 의료 image registration을 위한 빠른 learning-based framework임.Image Registration (영상 정합)서로 다른 좌표계를 가진 두 영상을 동일한 좌표계로 정렬하는 과정이며, 이를 위해 맵핑되는 기하학적 변환을 찾는 과정임.Voxel-based Registration (복셀 기반 정합)전체 영역을 전처리 없이 두 영상의 복셀 간 상관도를 측정하는 방식임.상대적으로 정확도가 높은 대신, 모든 복셀을 대상으로 유사도를 평가해야 하므로 수행 시간이 오래 걸림.정합 방식:중심축 및 모멘트 정합(principal axes and moments based method): 명암도 정..

[OUTTA Alpha팀 논문 리뷰] Part 11-2. Inpaint Anything: Segment Anything Meets Image Inpainting

논문 링크: 2304.067901. IAbstract 기존 이미지 인페인팅 기술은 마스크 선택 및 홀 채우기에 어려움을 겪음.Inpaint Anything (IA)는 Segment Anything Model (SAM) 기반의 클릭 기반 인페인팅을 도입하여 사용자 친화적인 워크플로우 제공.주요 기능Remove Anything: 클릭한 객체 제거 후 자연스럽게 배경 복원.Fill Anything: 제거된 영역을 텍스트 프롬프트 기반으로 새 콘텐츠 생성하여 채움.Replace Anything: 클릭한 객체를 유지한 채 배경을 새로운 장면으로 변경.2. Related Works2.1 Motivation and Observation 최신 인페인팅 기법(LaMa, Repaint, MAT, ZITS 등)은 복잡한 구..

[OUTTA Alpha팀 논문 리뷰] Part 11-1. RePaint: Inpainting using Denoising Diffusion Probabilistic Models

논문 링크: 2201.09865저자: Andreas Lugmayr, Martin Danelljan, Andres Romero, Fisher Yu, Radu Timofte, Luc Van Gool소속: Computer Vision Lab, ETH Z¨ urich, Switzerland 발행일: 2022 8월 31일1. AbstractFree-form Inpainting은 이미지에서 임의의 바이너리 마스크로 지정된 영역에 새로운 콘텐츠를 추가하는 작업이다.기존 방법들은 특정 마스크 분포에 대해 훈련되며, 이로 인해 보지 못한 새로운 마스크 유형에 대한 일반화 성능이 제한된다.또한, 픽셀 단위 및 perceptual loss 기반의 훈련 방식은 종종 단순한 텍스처 확장에만 집중하며, 의미론적으로 자연스러운 생..

[OUTTA Alpha팀 논문 리뷰 요약] Part 10-7. MAISI: Medical AI for Synthetic Imaging(3D CT 이미지 생성 모델)

논문 링크: https://arxiv.org/pdf/2409.11169v2 1. Introduction의료 영상 ML 모델 개발의 한계점데이터 희소성: 희귀 질환 데이터 부족 → 모델 학습 한계Human annotation 비용: 정확한 진단을 위한 전문 지식 필요 → 비용 상승Privacy 문제: 환자 정보 보호 필요 → 윤리적 문제 발생Synthetic data 생성 필요성: 의료 이미지의 인공적 생성 → Data augmentation, 환자 데이터 의존성 감소, cost-effective annotation 가능기존 연구 한계점고해상도 3D volume 생성의 어려움: 3D framework의 높은 메모리 사용량 → Memory bottleneck 해결 필요고정된 output volume dime..

[OUTTA Alpha팀 논문 리뷰] Part 10-6. Knowledge Distillation 변천사

논문 링크 1: Distilling the Knowledge in a Neural Network: 1503.02531논문 링크 2: Knowledge Transfer via Distillation of Activation Boundaries Formed by Hidden Neurons: 1811.03233논문 링크 3: Relational Knowledge Distillation: 1904.05068논문 링크 4: LARGE SCALE DISTRIBUTED NEURAL NETWORK TRAINING THROUGH ONLINE DISTILLATION: 1804.03235논문 링크 5: Be Your OwnTeacher: Improve the Performance of Convolutional Neural ..