논문

하루에도 수만개의 글자를 읽고 있습니다. 하루에도 수백장의 종이를 들춰 읽습니다.
이것은 그 읽기에 대한 일기입니다.

FaceBagNet: Bag-of-local-features Model for Multi-modal Face Anti-spoofing

1. Introduction

이 논문에서는 기존의 BagNets에서 영감을 얻었다. BagNets은 작은 크기의 로컬 패치를 이용하여 이미지를 분류하는 방법이다. 이러한 접근법은 지역적인 정보를 무시하기도 하지만 의외로 ImageNet에서 높은 정확도를 보였다.

논문이 기여하는 바는 다음과 같다.

  1. 패치 기반의 feature 학습법
  2. Modal Feature Erasing (MFE)를 이용한 멀티 스트림 fusion 학습법

2. Related Work

3. Methods

3.1. The overall architecture

FaceBagNet이라 부를, 멀티스트림 CNN 구조를 설명하고자 한다. 여기에 multi-moal face anti-spoofing detection을 위해서 Modal Feature Erasing (MFE)를 함께 사용하였다. 패치 기반의 특징을 학습하기 위해서 이미지에서 랜덤하게 패치를 추출하여 신경망을 학습시켰다. 멀티 스트림 퓨전은, 서로 다른 modality에서 특징을 추출한 뒤, 이를 통합하여 분류를 수행하였다. Figure 1은 3개의 스트림을 통합하는 개략적인 구조를 보인다.

3.2. Patch-based features learning

각 modality마다 얼굴 부분에서 랜덤 패치를 추출하여 하나의 CNN을 학습시켰다. 특징을 추출하기 위해서 ResNext[26] 네트워크를 사용하였다. 네트워크는 5개 그룹의 컨볼루셔널 블럭과 global average pooling 레이어, softmax layer로 구성된다. Table 1에서 각 레이어와 네트워크 구조를 나타내었다.

3.3. Multi-stream fusion with MFE

서로 다른 modality들은 그 특징 분포 또한 다르기 때문에, 이들 특징간의 의존적인 부분들을 최대한 이용하도록 하였다. 멀티 스트림 구조를 이용하여 세개의 서브네트워크에서 특징을 추출한 뒤 이를 통합하였다. [30]에서 연구하였듯, 단순히 특징을 쌓는 것만으로는 서로 다른 modality들의 특성을 온전히 사용할 수 없고, 오버피팅 또한 막는 목적 또한 달성하고자, Modal Feature Erasing을 적용하였다. 이는 학습 할 때에, 하나의 배치 내에서 랜덤하게 하나의 modality를 선택하여 특징을 모두 0으로 만들어버린 뒤 학습을 수행하였다. 학습은 스크래치부터, RGB, IR, Depth 의 modality를 동시에 학습하였다.

4. Experiments

4.1. Dataset and Evaluation Protocaol

4.2. Implementation details

이미지를 먼저 112 x 112로 리사ㅣ즈 한 뒤, flip, rotation, resizing, crop의 augmetation을 수행하였다. 패치는 112 내에서 랜덤하게 추출하였으며, SGD와 cyclic cosine annealing learning rate schedule[11]을 적용하였다.

4.3. Results

Table 2에서 전체 성능을 보였다.

각 패치 크기별 성능을 Table 3에서 보였다.

Cyclic learning rate (CLR), MFE, 그리고 학습 후 한 Modality를 삭제하였을 때의 성능 비교를 Table 4에서 보였다.

5. Conclusions


Add a Comment Trackback