하루에도 수만개의 글자를 읽고 있습니다. 하루에도 수백장의 종이를 들춰 읽습니다.
이것은 그 읽기에 대한 일기입니다.
Static and Dynamic Fusion for Multi-modal Cross-ethnicity Face Anti-spoofing
2월 8th, 2020 Posted by 룬룬
1. Introduction
움직임에 대한 정보를 얻으려면 temporal 정보 기반의 방법을 이용하여야 하지만, 기존의 방법은 눈, 입술, 머리 등의 정보를 사람이 직접 지정해줘야 하는 단점이 있었다.
Rank pooling을 이용하여 dynamic image generator를 구성한 뒤, 이를 이용하여 temporal/dynamic 정보를 잡을 수 있도록 하였다. 이렇게 하면 사람이 직접 지정하지 않아도 된다.
이렇게 만들어진 synamic 이미지와 static 영상을 모드 입력으로 하는 static-and dynamic based network (SD-Net)을 제안하였다.
한편, multi-modal 정보를 이용하기 위해서 일부분을 서로 공유하는 partially shared branch multimodal network (PSMM-Net)을 제안하였다.
기존 DB 대비 인종에 대한 편향을 없앤 CASIA-SURF CeFA DB를 제안하였다.
2. Related Work
3. Proposed Method
3.1 SD-Net for Single-model
Rank pooling은 비디오를 특징 벡터로 인코딩하는 랭크 함수를 정의한다. 학습 과정을 일종의 RankSVM을 이용한 최적화 문제로 볼 수 있다.
RankSVM의 입력으로 개의 프레임을 하나의 벡터 로 할당하여 사용하는데, 여기에서는 RGB나 Depth, IR의 픽셀 값들에 rank pooling을 직접 적용하도록 하고, 벡터 의 크기는 입력 프레임과 동일한 크기가 되도록 하였다.
SD-Net은 static과 dynamic 이미지로부터 학습하는데, static, dynamic, static-dynamic 3개의 브랜치로 이루어진다.
네트워크는 ResNet-18의 백본을 사용하고, 각 브랜치는 5개의 블락(conv, res1, res2, res3, rest4)와 1개의 global average pooling 층으로 이루어져 있다. 단 static-dynamic 브랜치에서는 처음의 conv와 res1 블락을 제거하고 static과 dynamic의 특징을 합쳐 사용하였다.
로스로는 binary cross-entropy를 사용하였다.
3.2 PSMM-Net for Multi-modal Fusion
PSMM은 여러 모달리티를 다루기 위해 만들었으며 2개의 부분으로 이루어진다.
하나는 각 모달리티에 대하여 기존 SD-Net을 적용한 부분과 다른 하나는 모든 모달리티를 사용하는 shared branch이다.