논문

하루에도 수만개의 글자를 읽고 있습니다. 하루에도 수백장의 종이를 들춰 읽습니다.
이것은 그 읽기에 대한 일기입니다.

Cascaded Pyramid Network for Multi-person Pose Estimation

1. Introduction

사람의 자세를 추정하는 많은 연구들이 이루어져 왔지만, 가려진 키포인트나 보이지 않는 키포인트, 복잡한 배경 등으로 인한 경우는 여전히 어려운 과제입니다. 이것이 어려운 이유는, 모양(appearance)에서 뽑은 특징으로는 분별하기 “어려운” 관절 부분이거나, 학습 과정에서 제공되지 않았던 “어려운” 관절부분인 경우로 생각할 수 있습니다.

이러한 “어려운” 관절을 해결하기 위해서 이 논문에서는 Cascaded Pyramid Network (CPN)을 제안합니다. 이 네트워크는 GlobalNet과 RefineNet 두가지로 이루어져 있습니다. GlobalNet은 feature pyramid network 기반으로된 네트워크로 가려지거나 보이지 않는 관절에 대응하기 위하여 컨텍스트 정보를 충분히 활용한 특징을 만들어냅니다. 그 결과에 기반하여 RefineNet은 hard keypoints mining loss를 이용하여 “어려운” 관절부를 명시적으로 학습하도록 유도됩니다.

이러한 CPN을 이용하여 여러 사람의 자세를 추정하는 문제를 푸는 파이프라인을 제안합니다. 사람 검출기가 먼저 사람의 바운딩 박스를 생성하고, 이어서 각 바운딩 박스에 CPN을 적용하여 키포인트를 추정합니다.

2. Related Work

3. Our Approach for Multi-person Keypoints Estimation

3.1. Human Detector

기존의 FPN에서 출발하되, FPN의 ROIPooling을 Mask RCNN의 ROIAlign으로 교체하였습니다. 그리고 COCO dataset에서 사람 카테고리만을 이용하여 학습시켰습니다.

3.2. Cascaded Pyramid Network (CPN)

3.2.1 GlobalNet

ResNet 백본에서 출발합니다. Residual 블럭들 conv2~5의 마지막 특징을 각각 $C_2, C_3, C_4, C_5$라고 합시다. 여기에 3 x 3 컨볼루션 필터를 적용하여 키포인트의 히트맵을 만들게 됩니다. $C_2, C_3$은 높은 해상도를 갖는 위치 정보를 가질 것이며, $C_4, C_5$는 해상도는 낮지만 semantic 정보를 더 가지고 있을 것입니다. 이를 활용하기 위해 feature pyramid 구조를 사용하였습니다. FPN과는 조금 다르게, 업샘플링 과정에서 element-wise sum을 하기 전에 1 x 1 컨볼루셔널 커널을 적용하도록 하였습니다.

이러한 GlobalNet은 눈과 같은 키포인트는 잘 찾아지지만 엉덩이와 같은 부분은 찾는데 실패하게 됩니다. 이러한 부분은 모양 정보 보다는 맥락적인 정보가 더 필요한 부위입니다. 때문에 GlobalNet 하나만으로는 이러한 “어려운” 부분은 찾아내기가 힘이 듭니다.

3.2.2. RefineNet

GlobalNet이 만들어낸 feature pyramid에 RefineNet을 더 붙였습니다. GlobalNet이 만든 여러 수준의 정보를 모두 활용하기 위하여 HyperNet에서처럼 특징을 업샘플링하고 이어 붙이는 방법을 사용하였습니다. Stacked hourglass에서와는 달리 단순히 업샘플링된 특징 자체를 사용하는 것이 아니라 모든 피라미드 특징을 이어붙여서 사용하였습니다. 여기에 깊은 수준의 레이어로 갈 수록 추가 bottleneck 블럭을 더 많이 갖도록 붙임이도록 하였습니다.

그러나 그냥 학습할 경우, 학습을 계속되면서 어려운 키포인트 보다는 간단한 키포인트에 더 많은 주의를 기울일 것이기 때문에 네트워크가 두가지 종류의 키포인트 균형을 맞추도록 하였습니다. RefineNet의 로스를 계산할 때 어려운 키포인트를 명시적으로 선택하여, 해당 포인트만을 이용한 로스로 그래디언트를 전파하도록 하였습니다. 이를 hard keypoint mining이라고 하였습니다.

4. Experiment

5. Conclusion

 


Add a Comment Trackback

댓글 남기기

This site uses Akismet to reduce spam. Learn how your comment data is processed.