Paper Review 64

[OUTTA Alpha팀 논문 리뷰] Part 10-3. IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models

논문 링크: https://arxiv.org/pdf/2308.067211. Introduction배경 및 문제점최근 GLIDE, DALL-E 2, Imagen, Stable Diffusion(SD), eDiff-I, RAPHAEL 등의 대형 텍스트-이미지 확산 모델(Diffusion Model)이 강력한 생성 능력을 보임.하지만 텍스트 프롬프트만으로 원하는 이미지를 생성하는 것은 어렵고 복잡한 프롬프트 엔지니어링(Prompt Engineering)이 필요.텍스트는 복잡한 장면이나 개념을 표현하는 데 한계가 있음.이미지 프롬프트(Image Prompt)는 더 직관적이면서도 풍부한 정보를 제공할 수 있음.기존 연구의 한계DALL-E 2는 이미지 프롬프트를 지원하지만, 사전 모델을 필요로 하고 대부분의 텍스트..

[OUTTA Alpha팀 논문 리뷰] Part 10-2. SLEAP: A deep learning system for multi-animal pose tracking

논문 링크: SLEAP: A deep learning system for multi-animal pose tracking | Nature Methods1. Introduction동물 행동 연구에서 정량적 측정의 중요성자세 추정(Pose Estimation)은 신경과학, 생태학 등의 분야에서 필수적인 기술.인간 자세 추정 기술을 응용하여 단일 개체의 자세 추정이 가능하지만, 다중 개체 추적에는 어려움이 존재.다중 개체 자세 추정의 난제같은 이미지 내에서 여러 개체의 자세를 정확하게 분류(Part Grouping)해야 함.연속된 프레임에서 같은 개체를 식별하는 Identity Tracking 문제.기존 방법들은 Bottom-up (부위 검출 후 그룹화) 또는 Top-down (개체 검출 후 부위 추정) 방식..

[OUTTA Alpha팀 논문 리뷰 요약] Part 10-1. FAMI: Temporal Feature Alignment and Mutual Information Maximization for Video-Based Human Pose Estimation

논문 링크: https://arxiv.org/abs/2203.15227 Temporal Feature Alignment and Mutual Information Maximization for Video-Based Human Pose EstimationMulti-frame human pose estimation has long been a compelling and fundamental problem in computer vision. This task is challenging due to fast motion and pose occlusion that frequently occur in videos. State-of-the-art methods strive to incorporate additionar..

[OUTTA Alpha팀 논문 리뷰] Part 9-6. Mamba: Linear-Time Sequence Modeling with Selective State Spaces

논문 링크: https://arxiv.org/abs/2312.00752 Mamba: Linear-Time Sequence Modeling with Selective State SpacesFoundation models, now powering most of the exciting applications in deep learning, are almost universally based on the Transformer architecture and its core attention module. Many subquadratic-time architectures such as linear attention, gated convolutionarxiv.org1. Introduction현대 딥러닝에서 Found..

[OUTTA Alpha팀 논문 리뷰] Part 9-1. GQA:Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints

논문 링크: 2305.132451. Attention 개요GQA를 이해하기 위해 Transformer 모델에서 사용되는 주요 Attention 기법을 정리한다.Multi-Head Attention (MHA)Transformer 모델의 핵심 구조로, Attention Is All You Need (2017) 논문에서 제안됨.Query(Q), Key(K), Value(V)를 여러 개의 Head로 나누어 병렬 연산 수행.장점: 다양한 의미 표현을 학습할 수 있어 모델 성능 향상.단점: 메모리 사용량이 많고, 연산량이 크며, 병목 현상이 발생할 가능성이 있음.KV Cached AttentionAutoRegressive Inference에서 이전 token에 대한 Key-Value(KV) 연산을 저장하는 방식.W..

[OUTTA Alpha팀 논문 리뷰] Part 8-7. GPT-NeoX-20B: An Open-Source Autoregressive Language Model

논문 링크: https://arxiv.org/abs/2204.06745  GPT-NeoX-20B: An Open-Source Autoregressive Language ModelWe introduce GPT-NeoX-20B, a 20 billion parameter autoregressive language model trained on the Pile, whose weights will be made freely and openly available to the public through a permissive license. It is, to the best of our knowledge, the largest dense aarxiv.org1. Introduction최근 대규모 언어 모델(LLM)의 ..

[OUTTA Alpha팀 논문 리뷰] Part 8-6. CoCa: Contrastive Captioners are Image-Text Foundation Models

논문 링크: https://arxiv.org/pdf/2205.01917.pdf0. VLMVLM(Visual Language Model)의 핵심 아이디어이미지와 텍스트를 동시에 이해하도록 학습하는 모델contrastive learning(이미지-텍스트 정렬)과 generative learning(이미지 캡션 생성 등)을 활용기존 연구 동향단일 인코더(Single-Encoder): ImageNet 등에서 cross-entropy 기반으로 학습 → 범용 시각 표현 얻을 수 있음이중 인코더(Dual-Encoder): 이미지와 텍스트 각각 인코더를 두고, contrastive loss로 학습 → 이미지-텍스트 검색, zero-shot 분류가 강점인코더-디코더(Encoder-Decoder): 이미지 인코더 + 텍스..

[OUTTA Alpha팀 논문 리뷰] Part 8-5. LoRA: Low-Rank Adaptation of Large Language Models

논문 링크: https://arxiv.org/abs/2106.09685  LoRA: Low-Rank Adaptation of Large Language ModelsAn important paradigm of natural language processing consists of large-scale pre-training on general domain data and adaptation to particular tasks or domains. As we pre-train larger models, full fine-tuning, which retrains all model parameters, becomes learxiv.org1.  IntroductionLLM(Large Language Model)의..

[OUTTA Alpha팀 논문 리뷰] Part 8-4. Swin-UNet: Unet-like Pure Transformer for Medical Image Segmentation

논문 링크: https://arxiv.org/pdf/2105.055371. Introduction의료 영상 분할은 진단·수술 등 임상 응용에 핵심이 되며, 오랜 기간 U-Net(CNN 기반)이 주류를 이루어 옴.하지만 CNN의 국소적 특성(convolution operation이 인접 영역에 집중)으로 인해, 글로벌 문맥(long-range dependency) 학습에 한계가 존재.Transformer가 NLP 분야에서 성공한 이후, Vision 분야에도 적용(ViT, DeiT, Swin Transformer 등)되어 글로벌 상호작용을 학습하는 데 강점이 있음을 보임.본 논문에서는 Swin Transformer를 활용하여 U-Net 유사 구조를 전부 Transformer 기반으로 설계한 Swin-Unet..

[OUTTA Alpha팀 논문 리뷰 요약] Part 8-3. SRCNN, ESRGAN

SRCNN 논문 링크: https://arxiv.org/abs/1501.00092 Image Super-Resolution Using Deep Convolutional NetworksWe propose a deep learning method for single image super-resolution (SR). Our method directly learns an end-to-end mapping between the low/high-resolution images. The mapping is represented as a deep convolutional neural network (CNN) that takes the low-rearxiv.org ESRGAN 논문 링크: [1809.00219] ES..