Paper Review/Computer Vision

[OUTTA Alpha팀 논문 리뷰] Part 10-1. FAMI: Temporal Feature Alignment and Mutual Information Maximization for Video-Based Human Pose Estimation

YeonJuJeon 2025. 2. 9. 17:51

 

 

논문 링크: https://arxiv.org/abs/2203.15227

 

Temporal Feature Alignment and Mutual Information Maximization for Video-Based Human Pose Estimation

Multi-frame human pose estimation has long been a compelling and fundamental problem in computer vision. This task is challenging due to fast motion and pose occlusion that frequently occur in videos. State-of-the-art methods strive to incorporate addition

arxiv.org

 

OUTTA 논문 리뷰 링크: [2025-1] 황징아이 - Temporal Feature Alignment and Mutual Information Maximization for Video-Based Human Pose Estimation

 

[2025-1] 황징아이 - Temporal Feature Alignment and Mutual Information Maximization for Video-Based Human Pose Estimation

논문 : https://arxiv.org/abs/2203.15227코드 : https://github.com/Pose-Group/FAMI-Pose GitHub - Pose-Group/FAMI-Pose: This is an official implementation of our CVPR 2022 ORAL paper "Temporal Feature Alignment and MuThis is an official implementation of

blog.outta.ai


1. Introduction

  • 영상 기반 자세 추정 (Video-Based Pose Estimation)
    • 행동 인식(Action Recognition), 증강 현실(AR), 감시(Surveillance), 스포츠 분석 등에 활용됨.
    • 비디오에서는 프레임 간 움직임 및 포즈 가림(occlusion) 문제로 인해 단일 이미지 기반 방법보다 난이도가 높음.
  • 기존 방법의 한계
    • 이웃 프레임의 정보를 활용하지만, 프레임 간 특징을 정렬하지 않고 단순히 결합하여 정보 활용에 한계가 있음.
    • 단순한 MSE 기반 히트맵 손실을 사용하여 이웃 프레임의 정보 활용을 강제하지 않음.
  • FAMI-Pose 제안
    • 계층적 정렬 (Hierarchical Feature Alignment) 프레임워크 적용 → 프레임 간 특징을 효과적으로 정렬.
    • Mutual Information (MI) Loss 도입 → 유용한 정보만 학습하여 과업 관련 정보를 극대화.

2. Related Work

2.1 이미지 기반 자세 추정 (Image-Based Pose Estimation)

  • Bottom-up 방식: 개별 신체 부위를 먼저 검출 후 조합 (ex: OpenPose, HRNet).
  • Top-down 방식: 사람을 먼저 감지한 후 자세 예측 (ex: SimpleBaseline, HRNet).
  • 한계: 시간적 관계를 고려하지 않음 → 연속된 프레임에서 일관성 부족.

2.2 영상 기반 자세 추정 (Video-Based Pose Estimation)

  • 순차적 특징 집계 (Sequential Feature Aggregation)
    • CNN + LSTM 구조 활용 (ex: PoseLSTM, Temporal Convolution Networks).
    • 프레임 간 특징 정렬을 고려하지 않아 빠른 움직임에서 성능 저하.
  • 광학 흐름 (Optical Flow) 기반 정렬
    • Optical Flow로 프레임 간 이동을 보정 (ex: DCPose, PoseWarper).
    • 광학 흐름의 부정확성이 자세 예측 성능을 저하시킴.

2.3 특징 정렬 (Feature Alignment)

  • 객체 감지(Object Detection), 이미지 분할(Image Segmentation)에서 FPN 등의 정렬 방법 연구됨.
  • 하지만 시간적 정렬(Temporal Alignment)을 적용한 연구는 부족.

3. Method

3.1 Feature Extraction

  • 입력:
    • 키 프레임 $I_t^i$(현재 프레임).
    • 이웃 프레임 $I_{t+\delta}^i$ (근접한 시간대 프레임).
  • Backbone Network (HRNet-W48)를 활용하여 특징 추출: $$(z_t^i, z_{t+\delta}^i)$$

3.2 Global Transformation + Local Calibration (Feature Alignment)

(1) Global Transformation Module (GTM)

  • 문제점: 사람이나 카메라가 빠르게 움직이면 같은 사람도 다른 위치에서 관측됨 → 공간 이동(Spatial Shift) 보정 필요.
  • Affine Transformation 적용
    • 변환 파라미터 $\Theta$ 학습: $$\Theta = \phi(z_t^i, z_{t+\delta}^i)$$
    • 학습된 $\Theta$  를 적용하여 지원 프레임을 정렬: $$\bar{z}_{t+\delta}^i = T(z_{t+\delta}^i, \Theta)$$
    • 결과적으로, 프레임 간의 전반적인 공간 이동을 보정.

(2) Local Calibration Module (LCM)

  • Global Transformation 후에도 남아있는 미세한 변형 보정.
  • Modulated Deformable Convolution 적용
    • 픽셀 단위의 위치 오프셋 $O$ 및 강도 조절 $M$ 학습. $$(O, M) = f(\bar{z}_{t+\delta}^i, z_t^i)$$
    • 변형된 Convolution 연산을 통해 픽셀 단위 보정 수행. $$\tilde{z}_{t+\delta}^i = \text{Modulated Deformable Conv}(\bar{z}_{t+\delta}^i, O, M)$$
    • 최종적으로, 정확히 정렬된 특징 $\tilde{z}_{t+\delta}^i$획득.

3.3 Heatmap Generation

  • 정렬된 특징 $\tilde{z}_{t+\delta}^i$와 키 프레임 특징 $z_t^i$ 을 합쳐서 최종 특징 $\tilde{z}_t^i$ 생성.
  • Detection Head를 통해 자세 히트맵 $\hat{H}_t^i$ 출력.

4. Mutual Information Maximization Loss

기존 방법의 한계:

  • 대부분 MSE 기반 히트맵 손실 사용 → 이웃 프레임의 정보 활용을 보장하지 않음.

Mutual Information Loss 도입:

  • 목표:
    • 프레임 간 유용한 정보는 유지하고 불필요한 중복 정보는 제거.
    • 이웃 프레임에서 얻을 수 있는 보완적인 정보 극대화.
  • Mutual Information (MI) 수식: $$I(y_t^i; \tilde{z}_t^i | z_t^i) = I(y_t^i; \tilde{z}_t^i) - I(z_t^i; \tilde{z}_t^i)$$
  • 최종 Loss 함수: $$L_{\text{total}} = L_H + \beta \cdot L_{\text{MI}}, \quad \beta = 0.1$$

5. Experiments

5.1 Dataset

  • PoseTrack 2017, PoseTrack 2018, Sub-JHMDB 사용.
  • 입력 이미지 크기: $384 \times 288$
  • Data Augmentation: Random Rotation, Scaling, Truncation, Horizontal Flipping.
  • Optimizer: Adam ($1e-4$).

5.2 Result

  • Coarse-to-Fine 계층적 정렬을 통한 효과적인 특징 정렬.
  • Mutual Information Loss로 불필요한 정보 제거 및 유용한 정보 유지.
  • SOTA 대비 향상된 성능
    Method PoseTrack2017 (mAP) PoseTrack2018 (mAP) Sub-JHMDB (mAP)
    PoseWarper 81.2 79.7 -
    DCPose 82.8 80.9 79.0
    FAMI-Pose 84.8 82.2 96.0

6. Conclusion

  • FAMI-Pose는 빠른 움직임 및 포즈 가림(occlusion)이 많은 상황에서도 우수한 자세 추정 성능을 보임.
  • 프레임 간 특징을 정렬하는 Hierarchical Feature Alignment와 Mutual Information Loss를 도입하여 성능 향상.