Paper Review/Detection & Segmentation

[OUTTA Alpha팀 논문 리뷰] Part 10-2. SLEAP: A deep learning system for multi-animal pose tracking

YeonJuJeon 2025. 2. 9. 18:04

논문 링크: SLEAP: A deep learning system for multi-animal pose tracking | Nature Methods


1. Introduction

  • 동물 행동 연구에서 정량적 측정의 중요성
    • 자세 추정(Pose Estimation)은 신경과학, 생태학 등의 분야에서 필수적인 기술.
    • 인간 자세 추정 기술을 응용하여 단일 개체의 자세 추정이 가능하지만, 다중 개체 추적에는 어려움이 존재.
  • 다중 개체 자세 추정의 난제
    • 같은 이미지 내에서 여러 개체의 자세를 정확하게 분류(Part Grouping)해야 함.
    • 연속된 프레임에서 같은 개체를 식별하는 Identity Tracking 문제.
    • 기존 방법들은 Bottom-up (부위 검출 후 그룹화) 또는 Top-down (개체 검출 후 부위 추정) 방식 중 하나를 채택했으나, 두 접근법을 비교할 수 있는 통합 시스템이 부재.
  • SLEAP (Social LEAP Estimates Animal Poses) 제안
    • LEAP의 후속 모델로 개발된 다목적 다중 개체 자세 추적 시스템.
    • Bottom-up과 Top-down 방식을 모두 지원하여 유연한 모델 학습 및 평가 가능.
    • 30개 이상의 신경망 백본과 모듈형 네트워크 구조 지원.
    • 7가지 데이터셋(파리, 벌, 쥐, 저빌 등)에 대해 평가 수행.

2. Related Work

2.1 단일 개체 자세 추정 (Single-Animal Pose Estimation)

  • 단일 개체 자세 추정은 신체 부위를 감지하는 문제로 정의됨.
  • 기존 방법:
    • DeepLabCut (DLC), DeepPoseKit, LEAP 등.
    • Mean Average Precision (mAP) 기준으로 평가 시, SLEAP은 기존 방법과 유사하거나 더 높은 정확도를 보이며, 추론 속도는 최대 4배 빠름.

2.2 다중 개체 자세 추정 (Multi-Animal Pose Estimation)

  • 기존 방법들의 문제점
    • Bottom-up 방식: 신체 부위를 감지 후 그룹화 → 연산량이 많고 그룹화가 어려움.
    • Top-down 방식: 개체를 먼저 감지 후 신체 부위 예측 → 프레임 내 개체 수 증가 시 속도 저하.
  • 다중 개체 추적을 위한 신경망 학습 및 추론 최적화 필요.

3. Method

3.1 SLEAP의 모듈 구성

  • 데이터 라벨링, 모델 학습, 추론, 검수(Proofreading)까지 지원하는 통합 시스템.
  • 30개 이상의 백본 신경망 및 다양한 아키텍처 지원.

3.2 Bottom-up vs Top-down 비교

(1) Bottom-up Approach (부위 → 개체)

  • 전체 이미지에서 신체 부위 검출 후 그룹화.
  • Part Affinity Fields (PAFs) 활용하여 부위 간 연결 관계를 모델링.
  • 장점: 모든 개체를 한 번의 네트워크 패스에서 처리 가능.
  • 단점: 부위 간 연결 정보가 부족하면 그룹화 오류 발생.

(2) Top-down Approach (개체 → 부위)

  • 먼저 개체를 감지한 후, 각 개체를 중심으로 부위 검출.
  • Centered Instance Network 활용 → 특정 개체만 고려한 신뢰도 맵(Confidence Map) 생성.
  • 장점: 개체별 신체 부위를 분리하여 예측 가능.
  • 단점: 개체 수가 많아질수록 연산량 증가.

4. Neural Network Architecture

4.1 신경망 구성

  • Encoder-Decoder 기반 구조 (UNet 변형).
  • 가변 다운샘플링 블록을 사용하여 수용 영역(Receptive Field) 조정 가능.
  • ResNet, MobileNet, EfficientNet 등의 사전 학습된 백본 모델 활용 가능.

4.2 성능 비교

  • Receptive Field 크기 증가 시 정확도 향상 → 데이터셋별로 최적의 크기 다름.
  • UNet 기반 모델이 정확도와 속도의 균형을 잘 유지.

5. Multi-Animal Identity Tracking

5.1 개체 식별 문제 해결 방법

  • Temporal Tracking (시간적 정보 활용)
    • Optical Flow 기반 Flow-Shift Tracking 사용.
    • 과거 프레임의 자세를 현재 프레임으로 이동하여 연결.
    • 한계: 오류가 누적될 경우 장기간 추적 성능 저하.
  • Appearance-Based Tracking (외형 정보 활용)
    • Bottom-up ID Model: 각 개체의 신체 부위를 클래스화하여 ID 매칭 수행.
    • Top-down ID Model: 개체 중심 이미지에서 신뢰도 맵을 생성하고 ID 확률을 예측.

5.2 성능 비교

  • Flow-Shift Tracking → ID 스위칭 오류가 낮음 (파리: 0.91/100,000 프레임, 쥐: 22.7/100,000 프레임).
  • Bottom-up ID 모델 → ID 정확도 (파리 99.7%, 저빌 82.2%).
  • Top-down ID 모델 → ID 정확도 (파리 100%, 저빌 93.1%).

6. Real-Time Applications

6.1 실시간 추론 성능

  • 최대 804 FPS (1,024 × 1,024 해상도 이미지).
  • 3.2ms의 낮은 지연시간으로 실시간 피드백 가능.
  • 기존 실시간 단일 개체 추적 모델보다 4배 낮은 지연시간 달성.

6.2 행동 제어 실험 (Closed-Loop Behavior Control)

  • 실시간 자세 추적을 활용한 행동 제어 실험 수행.
  • 파리 수컷의 접근 행동을 감지하여 암컷의 신경 자극 (Optogenetic Stimulation) 유발.
  • 326 ± 150 ms의 전체 시스템 지연시간 측정.

7. Experimental Results

7.1 데이터셋

  • 7가지 데이터셋에서 성능 평가 (파리, 벌, 쥐, 저빌 등).
  • 신체 부위 수, 개체 수, 조명 조건 등이 다른 다양한 환경에서 테스트.

7.2 성능 평가

  • 파리: 95%의 추정값이 0.084 mm(신체 크기의 3.2%) 이내로 정확한 위치를 확인할 수 있음
  • 생쥐: 3.04 mm(신체 크기의 3.7%) 이내로 정확한 위치를 확인할 수 있음

8. Conclusion

  • SLEAP은 다중 개체 자세 추적을 위한 종합적인 프레임워크.
  • Bottom-up과 Top-down 방식을 모두 지원하여 유연한 활용 가능.
  • ID Tracking 기능을 개선하여 장기간 안정적인 추적 가능.
  • GPU 가속을 활용하여 실시간 응용 프로그램에 적용 가능.
  • 동물 행동 연구, 신경과학, 생태학 등 다양한 분야에 적용 가능.