2025/06 11

[Diffusion 스터디] 확산 모델의 수학 4.0 ~ 4.4 정리

Chapter 4. 확산 모델의 발전이 장에서는 확산 모델의 발전 과정을 세 가지 측면으로 소개함:조건부 생성을 위한 확산 모델전체 확산 경로가 아닌 부분공간만을 확산하는 모델변형 상황(variation)을 고려한 확산 모델4.1 조건부 생성에서의 점수조건부 생성은 실제로 확산 모델을 사용할 때 많이 쓰이는 방식이다.기본적으로 확산 모델은 조건을 입력으로 추가할 수 있다.예: $x \sim p(x)$ 대신, $x \sim p(x|y)$로 바꾸어, 조건 $y$에 따라 데이터를 생성.예를 들어 $x$는 이미지, $y$는 텍스트 설명이라면,조건부 생성은 텍스트에 맞는 이미지를 생성하는 것임.이러한 조건부 생성에서는 점수 기반 학습이 핵심인데,조건이 없는 경우에는 점수 함수가 $\nabla_x \log p(x)..

[SNU 3D-LLDM 논문 리뷰] MaeTok: Masked Autoencoders Are Effective Tokenizers for Diffusion Models

논문 링크: arxiv.org/pdf/2502.03444깃허브 링크: Hhhhhhao/continuous_tokenizer GitHub - Hhhhhhao/continuous_tokenizerContribute to Hhhhhhao/continuous_tokenizer development by creating an account on GitHub.github.com허깅페이스 링크: MAETok/maetok-b-128 · Hugging Face MAETok/maetok-b-128 · Hugging FaceThis model has been pushed to the Hub using the PytorchModelHubMixin integration: Library: [More Information Need..

[MIR Internship 논문 리뷰] MedViTv2: Medical Image Classification with KAN-Integrated Transformers and Dilated Neighborhood Attention

논문 링크: Medical Image Classification with KAN-Integrated Transformers and Dilated Neighborhood Attention깃허브 링크: Omid-Nejati/MedViTV2: MedViTV2: Medical Image Classification with KAN-Integrated Transformers and Dilated Neighborhood Attention GitHub - Omid-Nejati/MedViTV2: MedViTV2: Medical Image Classification with KAN-Integrated Transformers and Dilated NeighborhoodMedViTV2: Medical Image Classif..

[MIR Internship 논문 리뷰] MedViT: A Robust Vision Transformer for Generalized Medical Image Classification

논문 링크: MedViT: A Robust Vision Transformer for Generalized Medical Image Classification깃허브 링크: Omid-Nejati/MedViT: MedViT: A Robust Vision Transformer for Generalized Medical Image Classification (Computers in Biology and Medicine 2023) GitHub - Omid-Nejati/MedViT: MedViT: A Robust Vision Transformer for Generalized Medical Image Classification (Computers in BiolMedViT: A Robust Vision Transform..

[Euron 8th Research 논문 리뷰] KTO: Model Alignment as Prospect Theoretic Optimization

논문 링크: KTO: Model Alignment as Prospect Theoretic Optimization깃허브 링크: KTO: Model Alignment as Prospect Theoretic Optimization허깅페이스 링크: Archangel - a ContextualAI Collection Archangel - a ContextualAI CollectionArchangel is a suite of human feedback-aligned LLMs, released as part of the Human-Aware Loss Functions (HALOs) project by Ethayarajh et al. (2024).huggingface.coAbstractKahneman과 Tversky의..

[Euron Research 복습 과제] DDIM

PyTorch로 구현한 DDIM 기반 MNIST 이미지 생성기이 글에서는 PyTorch를 사용하여 DDIM(Denoising Diffusion Implicit Models)을 기반으로 한 MNIST 이미지 생성 모델을 구현하는 과정을 단계별로 소개한다. 각 코드 셀은 논문에서 설명된 원리를 충실히 따르며, Sinusoidal Time Embedding, UNet, Residual Block, Sampling 과정을 모두 포함한다.1. 베타 스케줄 및 시간 관련 텐서 초기화import torchimport torch.nn as nnimport torch.nn.functional as Fimport mathimport numpy as np# 타임스텝 수 설정timesteps = 200# DDIM에서는 여전히..

Programming/AI & ML 2025.06.23

[Diffusion 스터디] 확산 모델의 수학 3.6 ~ 3.7 정리(CH3 완료)

3.6 확률 플로우 ODE확률 미분방정식(SDE)은 시간에 따라 변화하는 확률 분포 $p_t(x)$를 따르는 확률 과정을 정의한다. 그런데 이 SDE를 확률적 요소 없이 ODE(Ordinary Differential Equation, 상미분방정식)로 변환할 수 있다. ODE는 잡음(noise)이 없으므로 확률적인 요소를 포함하지 않지만, 데이터 분포의 표현력은 SDE와 동일하다. 이러한 ODE를 확률 플로우 ODE(probability flow ODE)라고 한다.확률 플로우 ODE는 다음과 같이 정의된다:$$dx = \left[f(x, t) - \frac{1}{2} g(t)^2 \nabla_x \log p_t(x)\right] dt \tag{3.7}$$여기서 $f(x, t)$: 드리프트 항$g(t)$: ..

[Diffusion 스터디] 확산 모델의 수학 3 ~ 3.5 정리

CHAPTER 3: 연속 시간 확산 모델앞 장에서는 데이터에 서서히 잡음을 추가하는 확산 과정과, 이를 반대로 수행하는 역확산 과정을 통해 잡음에서 데이터를 복원하는 과정을 살펴보았다. 이때, 스텝 수를 증가시키면 discretization error를 작게 할 수 있다. 스텝 수를 무한대로 증가시키면 연속 시간 확산 모델로 수렴하며, 이를 확률미분방정식(Stochastic Differential Equation, SDE)로 표현할 수 있다.확률미분방정식은 SDE → ODE 형태로 전환될 수 있으며, 특히 잡음을 포함하지 않는 경우엔 Deterministic 과정으로 간주된다. 또한 SDE는 prior distribution와 데이터 분포를 상호 변환하는 데 유용하며, 로그 우도의 하한이 아닌 로그 우도..

[Diffusion 스터디] 확산 모델의 수학 2.4.0 ~ 2.4.4 정리(CH2 완료)

2.4 SBM과 DDPM의 신호 대 잡음비를 사용한 통일적인 구조SBM과 DDPM은 도출 과정은 다르지만, 목적함수와 표본추출과 같은 형태를 하고 있음. 하지만 입력에 잡음을 더하는 과정에서는 중요한 차이가 있음.SBM (Score-Based Model): $$x_t = x_{t-1} + \sigma_t \varepsilon_t$$DDPM (Denoising Diffusion Probabilistic Model): $$x_t = \sqrt{\alpha_t}x_{t-1} + \sqrt{1-\alpha_t}\varepsilon_{t-1}$$여기서 $\beta_t = 1 - \alpha_t$인 것에 주의해야 함.SBM: 입력은 그대로 남고 잡음의 스케일만 커짐DDPM: 입력을 작게 한 만큼 잡음을 크게 해나감..