Paper Review/Computer Vision

[OUTTA Alpha팀 논문 리뷰] Part 11-2. Inpaint Anything: Segment Anything Meets Image Inpainting

YeonJuJeon 2025. 2. 20. 01:38

논문 링크: 2304.06790


1. IAbstract

  • 기존 이미지 인페인팅 기술은 마스크 선택 및 홀 채우기에 어려움을 겪음.
  • Inpaint Anything (IA)는 Segment Anything Model (SAM) 기반의 클릭 기반 인페인팅을 도입하여 사용자 친화적인 워크플로우 제공.
  • 주요 기능
    • Remove Anything: 클릭한 객체 제거 후 자연스럽게 배경 복원.
    • Fill Anything: 제거된 영역을 텍스트 프롬프트 기반으로 새 콘텐츠 생성하여 채움.
    • Replace Anything: 클릭한 객체를 유지한 채 배경을 새로운 장면으로 변경.

2. Related Works

2.1 Motivation and Observation

  • 최신 인페인팅 기법(LaMa, Repaint, MAT, ZITS 등)은 복잡한 구조와 고해상도 이미지에 대한 인페인팅 성능이 우수.
  • 하지만 정확한 마스크 주석이 필요하여 훈련과 추론에 제약이 있음.
  • 기존 인페인팅 기법은 객체를 제거한 후 동일한 배경 패턴으로만 채우는 한계가 있음.
  • SAM은 강력한 객체 분할 성능을 가짐에도 불구하고, 마스크 기반 인페인팅과의 통합이 부족함.

2.2 Contribution of Inpainting

  • SAM, 최신 인페인팅 기법(SOTA inpainters), AIGC(Stable Diffusion) 모델을 결합하여 직관적이고 강력한 인페인팅 파이프라인 구축.
  • 사용자 입력 최소화 (클릭 한 번으로 제거 및 대체 가능).
  • 배경 변경 및 생성적 인페인팅을 활용하여 기존 인페인팅의 한계를 극복.

3. Inpaint Anything 

3.1 Remove Anything (객체 제거)

  • SAM 기반으로 클릭한 객체의 마스크를 생성.
  • 최신 인페인팅 모델(LaMa 등)을 활용하여 객체 제거 후 자연스럽게 배경 복원.

3.2 Fill Anything (객체 채우기)

  • 클릭하여 객체 제거 후, Stable Diffusion과 같은 AIGC 모델을 이용하여 텍스트 프롬프트 기반의 새로운 콘텐츠 생성.
  • 예: "강아지가 벤치에 앉아 있음" → 해당 위치에 강아지를 생성하여 자연스럽게 채움.

3.3 Replace Anything (배경 변경)

  • 클릭한 객체를 유지하고, 배경을 새롭게 생성.
  • 텍스트 프롬프트 또는 이미지 프롬프트를 이용하여 원하는 배경으로 변경 가능.
  • 예: 실내 배경을 야외 공원 배경으로 대체.

4. Methodology

 

4.1 Preliminary

  • SAM (Segment Anything Model): ViT 기반 객체 분할 모델. SA-1B 데이터셋을 활용하여 대규모 학습됨.
  • SOTA 인페인팅 모델 (LaMa): FFC(Fast Fourier Convolution)와 Perceptual Loss를 활용하여 고해상도 인페인팅 성능 향상.
  • AIGC 모델 (Stable Diffusion): 텍스트 프롬프트 기반 이미지 생성 기능 활용.

4.2 Inpainting Process

  1. 객체 선택: 사용자가 클릭하여 제거할 객체 지정.
  2. 마스크 생성: SAM을 활용하여 객체 마스크 자동 생성.
  3. 객체 제거: SOTA 인페인팅 모델을 활용하여 객체를 제거하고 자연스럽게 배경 복원.
  4. 객체 채우기/배경 변경: Stable Diffusion을 이용하여 텍스트 또는 이미지 프롬프트 기반으로 콘텐츠 생성.

5. Experiment

  • COCO 데이터셋, LaMa 테스트셋, 자체 촬영 이미지를 이용하여 성능 평가.
  • Remove Anything, Fill Anything, Replace Anything 기능을 개별적으로 테스트.
  • 실험 결과, 다양한 해상도 및 비율에서 높은 인페인팅 성능을 보임.

6. Practice(최적화 및 고려 사항)

  • 마스크 다듬기 (Dilation): SAM이 생성한 마스크는 종종 불연속적인 경계를 포함하므로 확장 연산(dilation)을 활용하여 개선.
  • 해상도 유지 (Fidelity): Stable Diffusion은 일반적으로 512×512 해상도를 요구하므로, 리사이징 시 원본 품질 유지 기법 필요.
  • 프롬프트 최적화 (Prompt Engineering): 단순한 프롬프트가 가장 효과적이며, 너무 긴 프롬프트는 사용성이 떨어질 수 있음.

7. Conclusion

  • Inpaint Anything은 SAM, SOTA 인페인팅 모델, AIGC를 결합하여 강력한 인페인팅 성능을 제공.
  • 사용자가 클릭 한 번으로 객체를 제거하고, 텍스트 프롬프트를 이용해 원하는 객체 또는 배경을 생성 가능.
  • 향후 연구 방향:
    • 세밀한 이미지 매팅(Fine-grained Image Matting) 기능 추가.
    • 보다 정교한 이미지 편집 기능 개발.
    • 실제 응용 사례 확장 (의료 영상, 디자인, 사진 편집 등).