논문

하루에도 수만개의 글자를 읽고 있습니다. 하루에도 수백장의 종이를 들춰 읽습니다.
이것은 그 읽기에 대한 일기입니다.

Static and Dynamic Fusion for Multi-modal Cross-ethnicity Face Anti-spoofing

1. Introduction

  • 움직임에 대한 정보를 얻으려면 temporal 정보 기반의 방법을 이용하여야 하지만, 기존의 방법은 눈, 입술, 머리 등의 정보를 사람이 직접 지정해줘야 하는 단점이 있었다.
  • Rank pooling을 이용하여 dynamic image generator를 구성한 뒤, 이를 이용하여 temporal/dynamic 정보를 잡을 수 있도록 하였다. 이렇게 하면 사람이 직접 지정하지 않아도 된다.
  • 이렇게 만들어진 synamic 이미지와 static 영상을 모드 입력으로 하는 static-and dynamic based network (SD-Net)을 제안하였다.
  • 한편, multi-modal 정보를 이용하기 위해서 일부분을 서로 공유하는 partially shared branch multimodal network (PSMM-Net)을 제안하였다.
  • 기존 DB 대비 인종에 대한 편향을 없앤 CASIA-SURF CeFA DB를 제안하였다.

2. Related Work

3. Proposed Method

3.1 SD-Net for Single-model

  • Rank pooling은 비디오를 특징 벡터로 인코딩하는 랭크 함수를 정의한다. 학습 과정을 일종의 RankSVM을 이용한 최적화 문제로 볼 수 있다.
  • RankSVM의 입력으로 개의 프레임을 하나의 벡터 로 할당하여 사용하는데, 여기에서는 RGB나 Depth, IR의 픽셀 값들에 rank pooling을 직접 적용하도록 하고, 벡터 의 크기는 입력 프레임과 동일한 크기가 되도록 하였다.
  • SD-Net은 static과 dynamic 이미지로부터 학습하는데, static, dynamic, static-dynamic 3개의 브랜치로 이루어진다.
  • 네트워크는 ResNet-18의 백본을 사용하고, 각 브랜치는 5개의 블락(conv, res1, res2, res3, rest4)와 1개의 global average pooling 층으로 이루어져 있다. 단 static-dynamic 브랜치에서는 처음의 conv와 res1 블락을 제거하고 static과 dynamic의 특징을 합쳐 사용하였다.
  • 로스로는 binary cross-entropy를 사용하였다.

3.2 PSMM-Net for Multi-modal Fusion

  • PSMM은 여러 모달리티를 다루기 위해 만들었으며 2개의 부분으로 이루어진다.
  • 하나는 각 모달리티에 대하여 기존 SD-Net을 적용한 부분과 다른 하나는 모든 모달리티를 사용하는 shared branch이다.

4. CASIA-SURF CeFA dataset

5. Experiments

6. Conclusion


Add a Comment Trackback