[OUTTA Alpha팀 논문 리뷰] Part 10-1. FAMI: Temporal Feature Alignment and Mutual Information Maximization for Video-Based Human Pose Estimation

Paper Review/Computer Vision

[OUTTA Alpha팀 논문 리뷰] Part 10-1. FAMI: Temporal Feature Alignment and Mutual Information Maximization for Video-Based Human Pose Estimation

YeonJuJeon 2025. 2. 9. 17:51

Temporal Feature Alignment and Mutual Information Maximization for Video-Based Human Pose Estimation

Multi-frame human pose estimation has long been a compelling and fundamental problem in computer vision. This task is challenging due to fast motion and pose occlusion that frequently occur in videos. State-of-the-art methods strive to incorporate addition

arxiv.org

OUTTA 논문 리뷰 링크: [2025-1] 황징아이 - Temporal Feature Alignment and Mutual Information Maximization for Video-Based Human Pose Estimation

[2025-1] 황징아이 - Temporal Feature Alignment and Mutual Information Maximization for Video-Based Human Pose Estimation

논문 : https://arxiv.org/abs/2203.15227코드 : https://github.com/Pose-Group/FAMI-Pose GitHub - Pose-Group/FAMI-Pose: This is an official implementation of our CVPR 2022 ORAL paper "Temporal Feature Alignment and MuThis is an official implementation of

blog.outta.ai

1. Introduction

영상 기반 자세 추정 (Video-Based Pose Estimation)
- 행동 인식(Action Recognition), 증강 현실(AR), 감시(Surveillance), 스포츠 분석 등에 활용됨.
- 비디오에서는 프레임 간 움직임 및 포즈 가림(occlusion) 문제로 인해 단일 이미지 기반 방법보다 난이도가 높음.
기존 방법의 한계
- 이웃 프레임의 정보를 활용하지만, 프레임 간 특징을 정렬하지 않고 단순히 결합하여 정보 활용에 한계가 있음.
- 단순한 MSE 기반 히트맵 손실을 사용하여 이웃 프레임의 정보 활용을 강제하지 않음.
FAMI-Pose 제안
- 계층적 정렬 (Hierarchical Feature Alignment) 프레임워크 적용 → 프레임 간 특징을 효과적으로 정렬.
- Mutual Information (MI) Loss 도입 → 유용한 정보만 학습하여 과업 관련 정보를 극대화.

2. Related Work

2.1 이미지 기반 자세 추정 (Image-Based Pose Estimation)

Bottom-up 방식: 개별 신체 부위를 먼저 검출 후 조합 (ex: OpenPose, HRNet).
Top-down 방식: 사람을 먼저 감지한 후 자세 예측 (ex: SimpleBaseline, HRNet).
한계: 시간적 관계를 고려하지 않음 → 연속된 프레임에서 일관성 부족.

2.2 영상 기반 자세 추정 (Video-Based Pose Estimation)

순차적 특징 집계 (Sequential Feature Aggregation)
- CNN + LSTM 구조 활용 (ex: PoseLSTM, Temporal Convolution Networks).
- 프레임 간 특징 정렬을 고려하지 않아 빠른 움직임에서 성능 저하.
광학 흐름 (Optical Flow) 기반 정렬
- Optical Flow로 프레임 간 이동을 보정 (ex: DCPose, PoseWarper).
- 광학 흐름의 부정확성이 자세 예측 성능을 저하시킴.

2.3 특징 정렬 (Feature Alignment)

객체 감지(Object Detection), 이미지 분할(Image Segmentation)에서 FPN 등의 정렬 방법 연구됨.
하지만 시간적 정렬(Temporal Alignment)을 적용한 연구는 부족.

3. Method

3.1 Feature Extraction

입력:
- 키 프레임 $I_t^i$(현재 프레임).
- 이웃 프레임 $I_{t+\delta}^i$ (근접한 시간대 프레임).
Backbone Network (HRNet-W48)를 활용하여 특징 추출: $$(z_t^i, z_{t+\delta}^i)$$

3.2 Global Transformation + Local Calibration (Feature Alignment)

(1) Global Transformation Module (GTM)

문제점: 사람이나 카메라가 빠르게 움직이면 같은 사람도 다른 위치에서 관측됨 → 공간 이동(Spatial Shift) 보정 필요.
Affine Transformation 적용
- 변환 파라미터 $\Theta$ 학습: $$\Theta = \phi(z_t^i, z_{t+\delta}^i)$$
- 학습된 $\Theta$ 를 적용하여 지원 프레임을 정렬: $$\bar{z}_{t+\delta}^i = T(z_{t+\delta}^i, \Theta)$$
- 결과적으로, 프레임 간의 전반적인 공간 이동을 보정.

(2) Local Calibration Module (LCM)

Global Transformation 후에도 남아있는 미세한 변형 보정.
Modulated Deformable Convolution 적용
- 픽셀 단위의 위치 오프셋 $O$ 및 강도 조절 $M$ 학습. $$(O, M) = f(\bar{z}_{t+\delta}^i, z_t^i)$$
- 변형된 Convolution 연산을 통해 픽셀 단위 보정 수행. $$\tilde{z}_{t+\delta}^i = \text{Modulated Deformable Conv}(\bar{z}_{t+\delta}^i, O, M)$$
- 최종적으로, 정확히 정렬된 특징 $\tilde{z}_{t+\delta}^i$획득.

3.3 Heatmap Generation

정렬된 특징 $\tilde{z}_{t+\delta}^i$와 키 프레임 특징 $z_t^i$ 을 합쳐서 최종 특징 $\tilde{z}_t^i$ 생성.
Detection Head를 통해 자세 히트맵 $\hat{H}_t^i$ 출력.

4. Mutual Information Maximization Loss

기존 방법의 한계:

대부분 MSE 기반 히트맵 손실 사용 → 이웃 프레임의 정보 활용을 보장하지 않음.

Mutual Information Loss 도입:

목표:
- 프레임 간 유용한 정보는 유지하고 불필요한 중복 정보는 제거.
- 이웃 프레임에서 얻을 수 있는 보완적인 정보 극대화.
Mutual Information (MI) 수식: $$I(y_t^i; \tilde{z}_t^i | z_t^i) = I(y_t^i; \tilde{z}_t^i) - I(z_t^i; \tilde{z}_t^i)$$
최종 Loss 함수: $$L_{\text{total}} = L_H + \beta \cdot L_{\text{MI}}, \quad \beta = 0.1$$

5. Experiments

5.1 Dataset

PoseTrack 2017, PoseTrack 2018, Sub-JHMDB 사용.
입력 이미지 크기: $384 \times 288$
Data Augmentation: Random Rotation, Scaling, Truncation, Horizontal Flipping.
Optimizer: Adam ($1e-4$).

5.2 Result

Coarse-to-Fine 계층적 정렬을 통한 효과적인 특징 정렬.
Mutual Information Loss로 불필요한 정보 제거 및 유용한 정보 유지.
SOTA 대비 향상된 성능

Method PoseTrack2017 (mAP) PoseTrack2018 (mAP) Sub-JHMDB (mAP)

PoseWarper 81.2 79.7 -

DCPose 82.8 80.9 79.0

FAMI-Pose 84.8 82.2 96.0

6. Conclusion

FAMI-Pose는 빠른 움직임 및 포즈 가림(occlusion)이 많은 상황에서도 우수한 자세 추정 성능을 보임.
프레임 간 특징을 정렬하는 Hierarchical Feature Alignment와 Mutual Information Loss를 도입하여 성능 향상.

'Paper Review > Computer Vision' 카테고리의 다른 글

[OUTTA Alpha팀 논문 리뷰 요약] Part 10-5. InstantStyle: Free Lunch towards Style-Preserving in Text-to-Image Generation (0)	2025.02.09
[OUTTA Alpha팀 논문 리뷰] Part 10-3. IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models (0)	2025.02.09
[OUTTA Alpha팀 논문 리뷰 요약] Part 9-4. SR3: Image Super-Resolution via Iterative Refinement (0)	2025.02.01
[OUTTA Alpha팀 논문 리뷰 요약] Part 9-2. SRDiff : Single image super-resolution with diffusion probabilistic models (0)	2025.02.01
[OUTTA Alpha팀 논문 리뷰] Part 8-4. Swin-UNet: Unet-like Pure Transformer for Medical Image Segmentation (0)	2025.01.25

현재글[OUTTA Alpha팀 논문 리뷰] Part 10-1. FAMI: Temporal Feature Alignment and Mutual Information Maximization for Video-Based Human Pose Estimation

연주의 공부 기록

Medical Image AI & CV 내가 보려고 만든 블로그💻 논문 & 코드 리뷰 및 이론 정리. * 논문 리뷰 요약은 흐름 파악용.

의학영상처리, srdiff, LSTM, transformer, deep-emotion, Distillation, regression, keras, fami, votenet, RNN, gpt-neox-20b, ip-adapter, instantstyle, sleap, pytorch, maisi, classification, sr3, voxelmorph,

Today :
Yesterday :

연주의 공부 기록