Paper Review/Multi-Modal 3

[Euron 8th Research 논문 리뷰] KTO: Model Alignment as Prospect Theoretic Optimization

논문 링크: KTO: Model Alignment as Prospect Theoretic Optimization깃허브 링크: KTO: Model Alignment as Prospect Theoretic Optimization허깅페이스 링크: Archangel - a ContextualAI Collection Archangel - a ContextualAI CollectionArchangel is a suite of human feedback-aligned LLMs, released as part of the Human-Aware Loss Functions (HALOs) project by Ethayarajh et al. (2024).huggingface.coAbstractKahneman과 Tversky의..

[Euron 8th Research 논문 리뷰] BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

논문 링크: BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and GenerationAbstractVision-Language Pre-training(VLP)은 다양한 vision-language 과제에서 성능을 크게 향상시켰으나, 기존 대부분의 사전학습 모델은 이해 기반 또는 생성 기반 태스크 중 하나에만 최적화되어 있는 경우가 많았다. 또한 대부분의 성능 향상은 웹에서 수집한 noisy image-text pairs를 대규모로 사용하는 것에서 비롯되었으며, 이는 최적의 supervision이 되지 못한다.본 논문에서는 BLIP이라는 새로운 VLP 프레임워크를 제안한다. 이 프레임워크는 이..

[OUTTA Alpha팀 논문 리뷰] Part 6-1. CLIP: Learning Transferable Visual Models From Natural Language Supervision

논문 링크: Learning Transferable Visual Models From Natural Language Supervision0. Abstract기존 SOTA Computer Vision 시스템은 고정된 object category에만 대응하며, 확장성과 일반성을 저해.CLIP은 인터넷에서 얻은 4억 개의 이미지-텍스트 쌍을 학습하여 zero-shot 학습이 가능하도록 설계.다양한 downstream task에 적용 가능하며, OCR, action recognition 등 30개 이상 task에서 높은 성능을 달성.1. Introduction and Motivating WorkNLP 분야의 발전 사례:BERT, GPT는 대규모 텍스트 데이터로 pre-training 후 fine-tuning 방..