논문 링크: https://arxiv.org/abs/2203.15227
Temporal Feature Alignment and Mutual Information Maximization for Video-Based Human Pose Estimation
Multi-frame human pose estimation has long been a compelling and fundamental problem in computer vision. This task is challenging due to fast motion and pose occlusion that frequently occur in videos. State-of-the-art methods strive to incorporate addition
arxiv.org
OUTTA 논문 리뷰 링크: [2025-1] 황징아이 - Temporal Feature Alignment and Mutual Information Maximization for Video-Based Human Pose Estimation
[2025-1] 황징아이 - Temporal Feature Alignment and Mutual Information Maximization for Video-Based Human Pose Estimation
논문 : https://arxiv.org/abs/2203.15227코드 : https://github.com/Pose-Group/FAMI-Pose GitHub - Pose-Group/FAMI-Pose: This is an official implementation of our CVPR 2022 ORAL paper "Temporal Feature Alignment and MuThis is an official implementation of
blog.outta.ai
1. Introduction
- 영상 기반 자세 추정 (Video-Based Pose Estimation)
- 행동 인식(Action Recognition), 증강 현실(AR), 감시(Surveillance), 스포츠 분석 등에 활용됨.
- 비디오에서는 프레임 간 움직임 및 포즈 가림(occlusion) 문제로 인해 단일 이미지 기반 방법보다 난이도가 높음.
- 기존 방법의 한계
- 이웃 프레임의 정보를 활용하지만, 프레임 간 특징을 정렬하지 않고 단순히 결합하여 정보 활용에 한계가 있음.
- 단순한 MSE 기반 히트맵 손실을 사용하여 이웃 프레임의 정보 활용을 강제하지 않음.
- FAMI-Pose 제안
- 계층적 정렬 (Hierarchical Feature Alignment) 프레임워크 적용 → 프레임 간 특징을 효과적으로 정렬.
- Mutual Information (MI) Loss 도입 → 유용한 정보만 학습하여 과업 관련 정보를 극대화.
2. Related Work
2.1 이미지 기반 자세 추정 (Image-Based Pose Estimation)
- Bottom-up 방식: 개별 신체 부위를 먼저 검출 후 조합 (ex: OpenPose, HRNet).
- Top-down 방식: 사람을 먼저 감지한 후 자세 예측 (ex: SimpleBaseline, HRNet).
- 한계: 시간적 관계를 고려하지 않음 → 연속된 프레임에서 일관성 부족.
2.2 영상 기반 자세 추정 (Video-Based Pose Estimation)
- 순차적 특징 집계 (Sequential Feature Aggregation)
- CNN + LSTM 구조 활용 (ex: PoseLSTM, Temporal Convolution Networks).
- 프레임 간 특징 정렬을 고려하지 않아 빠른 움직임에서 성능 저하.
- 광학 흐름 (Optical Flow) 기반 정렬
- Optical Flow로 프레임 간 이동을 보정 (ex: DCPose, PoseWarper).
- 광학 흐름의 부정확성이 자세 예측 성능을 저하시킴.
2.3 특징 정렬 (Feature Alignment)
- 객체 감지(Object Detection), 이미지 분할(Image Segmentation)에서 FPN 등의 정렬 방법 연구됨.
- 하지만 시간적 정렬(Temporal Alignment)을 적용한 연구는 부족.
3. Method
3.1 Feature Extraction
- 입력:
- 키 프레임 $I_t^i$(현재 프레임).
- 이웃 프레임 $I_{t+\delta}^i$ (근접한 시간대 프레임).
- Backbone Network (HRNet-W48)를 활용하여 특징 추출: $$(z_t^i, z_{t+\delta}^i)$$
3.2 Global Transformation + Local Calibration (Feature Alignment)
(1) Global Transformation Module (GTM)
- 문제점: 사람이나 카메라가 빠르게 움직이면 같은 사람도 다른 위치에서 관측됨 → 공간 이동(Spatial Shift) 보정 필요.
- Affine Transformation 적용
- 변환 파라미터 $\Theta$ 학습: $$\Theta = \phi(z_t^i, z_{t+\delta}^i)$$
- 학습된 $\Theta$ 를 적용하여 지원 프레임을 정렬: $$\bar{z}_{t+\delta}^i = T(z_{t+\delta}^i, \Theta)$$
- 결과적으로, 프레임 간의 전반적인 공간 이동을 보정.
(2) Local Calibration Module (LCM)
- Global Transformation 후에도 남아있는 미세한 변형 보정.
- Modulated Deformable Convolution 적용
- 픽셀 단위의 위치 오프셋 $O$ 및 강도 조절 $M$ 학습. $$(O, M) = f(\bar{z}_{t+\delta}^i, z_t^i)$$
- 변형된 Convolution 연산을 통해 픽셀 단위 보정 수행. $$\tilde{z}_{t+\delta}^i = \text{Modulated Deformable Conv}(\bar{z}_{t+\delta}^i, O, M)$$
- 최종적으로, 정확히 정렬된 특징 $\tilde{z}_{t+\delta}^i$획득.
3.3 Heatmap Generation
- 정렬된 특징 $\tilde{z}_{t+\delta}^i$와 키 프레임 특징 $z_t^i$ 을 합쳐서 최종 특징 $\tilde{z}_t^i$ 생성.
- Detection Head를 통해 자세 히트맵 $\hat{H}_t^i$ 출력.
4. Mutual Information Maximization Loss
기존 방법의 한계:
- 대부분 MSE 기반 히트맵 손실 사용 → 이웃 프레임의 정보 활용을 보장하지 않음.
Mutual Information Loss 도입:
- 목표:
- 프레임 간 유용한 정보는 유지하고 불필요한 중복 정보는 제거.
- 이웃 프레임에서 얻을 수 있는 보완적인 정보 극대화.
- Mutual Information (MI) 수식: $$I(y_t^i; \tilde{z}_t^i | z_t^i) = I(y_t^i; \tilde{z}_t^i) - I(z_t^i; \tilde{z}_t^i)$$
- 최종 Loss 함수: $$L_{\text{total}} = L_H + \beta \cdot L_{\text{MI}}, \quad \beta = 0.1$$
5. Experiments
5.1 Dataset
- PoseTrack 2017, PoseTrack 2018, Sub-JHMDB 사용.
- 입력 이미지 크기: $384 \times 288$
- Data Augmentation: Random Rotation, Scaling, Truncation, Horizontal Flipping.
- Optimizer: Adam ($1e-4$).
5.2 Result
- Coarse-to-Fine 계층적 정렬을 통한 효과적인 특징 정렬.
- Mutual Information Loss로 불필요한 정보 제거 및 유용한 정보 유지.
- SOTA 대비 향상된 성능
Method PoseTrack2017 (mAP) PoseTrack2018 (mAP) Sub-JHMDB (mAP) PoseWarper 81.2 79.7 - DCPose 82.8 80.9 79.0 FAMI-Pose 84.8 82.2 96.0
6. Conclusion
- FAMI-Pose는 빠른 움직임 및 포즈 가림(occlusion)이 많은 상황에서도 우수한 자세 추정 성능을 보임.
- 프레임 간 특징을 정렬하는 Hierarchical Feature Alignment와 Mutual Information Loss를 도입하여 성능 향상.