논문 링크: SLEAP: A deep learning system for multi-animal pose tracking | Nature Methods
1. Introduction
- 동물 행동 연구에서 정량적 측정의 중요성
- 자세 추정(Pose Estimation)은 신경과학, 생태학 등의 분야에서 필수적인 기술.
- 인간 자세 추정 기술을 응용하여 단일 개체의 자세 추정이 가능하지만, 다중 개체 추적에는 어려움이 존재.
- 다중 개체 자세 추정의 난제
- 같은 이미지 내에서 여러 개체의 자세를 정확하게 분류(Part Grouping)해야 함.
- 연속된 프레임에서 같은 개체를 식별하는 Identity Tracking 문제.
- 기존 방법들은 Bottom-up (부위 검출 후 그룹화) 또는 Top-down (개체 검출 후 부위 추정) 방식 중 하나를 채택했으나, 두 접근법을 비교할 수 있는 통합 시스템이 부재.
- SLEAP (Social LEAP Estimates Animal Poses) 제안
- LEAP의 후속 모델로 개발된 다목적 다중 개체 자세 추적 시스템.
- Bottom-up과 Top-down 방식을 모두 지원하여 유연한 모델 학습 및 평가 가능.
- 30개 이상의 신경망 백본과 모듈형 네트워크 구조 지원.
- 7가지 데이터셋(파리, 벌, 쥐, 저빌 등)에 대해 평가 수행.
2. Related Work
2.1 단일 개체 자세 추정 (Single-Animal Pose Estimation)
- 단일 개체 자세 추정은 신체 부위를 감지하는 문제로 정의됨.
- 기존 방법:
- DeepLabCut (DLC), DeepPoseKit, LEAP 등.
- Mean Average Precision (mAP) 기준으로 평가 시, SLEAP은 기존 방법과 유사하거나 더 높은 정확도를 보이며, 추론 속도는 최대 4배 빠름.
2.2 다중 개체 자세 추정 (Multi-Animal Pose Estimation)
- 기존 방법들의 문제점
- Bottom-up 방식: 신체 부위를 감지 후 그룹화 → 연산량이 많고 그룹화가 어려움.
- Top-down 방식: 개체를 먼저 감지 후 신체 부위 예측 → 프레임 내 개체 수 증가 시 속도 저하.
- 다중 개체 추적을 위한 신경망 학습 및 추론 최적화 필요.
3. Method
3.1 SLEAP의 모듈 구성
- 데이터 라벨링, 모델 학습, 추론, 검수(Proofreading)까지 지원하는 통합 시스템.
- 30개 이상의 백본 신경망 및 다양한 아키텍처 지원.
3.2 Bottom-up vs Top-down 비교
(1) Bottom-up Approach (부위 → 개체)
- 전체 이미지에서 신체 부위 검출 후 그룹화.
- Part Affinity Fields (PAFs) 활용하여 부위 간 연결 관계를 모델링.
- 장점: 모든 개체를 한 번의 네트워크 패스에서 처리 가능.
- 단점: 부위 간 연결 정보가 부족하면 그룹화 오류 발생.
(2) Top-down Approach (개체 → 부위)
- 먼저 개체를 감지한 후, 각 개체를 중심으로 부위 검출.
- Centered Instance Network 활용 → 특정 개체만 고려한 신뢰도 맵(Confidence Map) 생성.
- 장점: 개체별 신체 부위를 분리하여 예측 가능.
- 단점: 개체 수가 많아질수록 연산량 증가.
4. Neural Network Architecture
4.1 신경망 구성
- Encoder-Decoder 기반 구조 (UNet 변형).
- 가변 다운샘플링 블록을 사용하여 수용 영역(Receptive Field) 조정 가능.
- ResNet, MobileNet, EfficientNet 등의 사전 학습된 백본 모델 활용 가능.
4.2 성능 비교
- Receptive Field 크기 증가 시 정확도 향상 → 데이터셋별로 최적의 크기 다름.
- UNet 기반 모델이 정확도와 속도의 균형을 잘 유지.
5. Multi-Animal Identity Tracking
5.1 개체 식별 문제 해결 방법
- Temporal Tracking (시간적 정보 활용)
- Optical Flow 기반 Flow-Shift Tracking 사용.
- 과거 프레임의 자세를 현재 프레임으로 이동하여 연결.
- 한계: 오류가 누적될 경우 장기간 추적 성능 저하.
- Appearance-Based Tracking (외형 정보 활용)
- Bottom-up ID Model: 각 개체의 신체 부위를 클래스화하여 ID 매칭 수행.
- Top-down ID Model: 개체 중심 이미지에서 신뢰도 맵을 생성하고 ID 확률을 예측.
5.2 성능 비교
- Flow-Shift Tracking → ID 스위칭 오류가 낮음 (파리: 0.91/100,000 프레임, 쥐: 22.7/100,000 프레임).
- Bottom-up ID 모델 → ID 정확도 (파리 99.7%, 저빌 82.2%).
- Top-down ID 모델 → ID 정확도 (파리 100%, 저빌 93.1%).
6. Real-Time Applications
6.1 실시간 추론 성능
- 최대 804 FPS (1,024 × 1,024 해상도 이미지).
- 3.2ms의 낮은 지연시간으로 실시간 피드백 가능.
- 기존 실시간 단일 개체 추적 모델보다 4배 낮은 지연시간 달성.
6.2 행동 제어 실험 (Closed-Loop Behavior Control)
- 실시간 자세 추적을 활용한 행동 제어 실험 수행.
- 파리 수컷의 접근 행동을 감지하여 암컷의 신경 자극 (Optogenetic Stimulation) 유발.
- 326 ± 150 ms의 전체 시스템 지연시간 측정.
7. Experimental Results
7.1 데이터셋
- 7가지 데이터셋에서 성능 평가 (파리, 벌, 쥐, 저빌 등).
- 신체 부위 수, 개체 수, 조명 조건 등이 다른 다양한 환경에서 테스트.
7.2 성능 평가
- 파리: 95%의 추정값이 0.084 mm(신체 크기의 3.2%) 이내로 정확한 위치를 확인할 수 있음
- 생쥐: 3.04 mm(신체 크기의 3.7%) 이내로 정확한 위치를 확인할 수 있음
8. Conclusion
- SLEAP은 다중 개체 자세 추적을 위한 종합적인 프레임워크.
- Bottom-up과 Top-down 방식을 모두 지원하여 유연한 활용 가능.
- ID Tracking 기능을 개선하여 장기간 안정적인 추적 가능.
- GPU 가속을 활용하여 실시간 응용 프로그램에 적용 가능.
- 동물 행동 연구, 신경과학, 생태학 등 다양한 분야에 적용 가능.