논문

하루에도 수만개의 글자를 읽고 있습니다. 하루에도 수백장의 종이를 들춰 읽습니다.
이것은 그 읽기에 대한 일기입니다.

Face Anti-Spoofing: Model Matters, So Does Data

2월 8th, 2020 Posted by 룬룬

1. Introduction

동영상에서의 anti-spoofing DB는 구하기가 힘들다. 이를 직접 제작하기 위해 웹에서 positive 샘플들을 동영상으로 다운 받았고, 이들 영상을 여러 기기에서 재생하고 이를 촬영하여 negative 샘플로 사용하였다. 이 과정에서 이미지 합성 기법을 이용하여 negative 샘플의 양을 더 늘릴 수 있었다.
또한 새로운 모델인 Spatio-Temporal Anti-Spoofing Network (STASN)을 제작하여 temporal 기반의 attention 메카니즘을 이용하였다.
이 모델은 Temporal Anti-Spoofing Module (TASM), Region Attention Module (RAM), Spatial Anti-Spoofing Module (SASM)로 이루어져 있다.
기존의 연구들에서 영상의 전체적인 모양보다는 지역적인 특징이 더 중요하다고 판단하였고, 영역에서 중요한 부분의 attention을 RAM을 통하여 판단하도록 하고, 해당 영역을 SASM을 이용하여 진위여부를 판단하도록 하였다.
Attention은 LSTM 특징을 이용하여 spatio-temporal 정보를 모두 활용하도록 하였다.

2. Related Work

3. Data

3.1 Manually-Mimicked Spoof Faces

촬쳥할 때 스크린의 반사나 모아레 패턴, 기기의 가장자리 부분이 찍히지 않도록 주문하였다.

3.2 Machine-Synthesized Spoof Faces

가우시안 블러 커널을 랜덤하게 적용하고, 랜던함 이미지를 블렌딩 한 뒤, perspective 변환을 거치고 다시 배경 이미지에 블랜딩하여 합성 이미지를 만들었다.

4. Model

TASM은 Conv-LSTM 구조를 이용하였다.
50레이어 짜리 ResNEt을 백본으로 Global average pooling과 LSMT을 모듈을 추규하아쎠다.
주목해야할 부분을 지정하기 위하여 RAM은 아래의 transform matrix를 학습하도록 구성하였다.

$T = \begin{matrix} s_h & 0 & a_x \\ 0 & s_w & a_y \end{matrix}$

실제로는 $s_w$ 와 $s_h$ 는 고정시키고 $a_x, a_y$ 만 추정하도록 ㅅ구성하였다.
TASM의 res_conv5의 출력 특징을 입력으로 하여 7x7 크기의 depth-wise convolution 필터를 적용하고 1 x 1 channel convolution을 적용하여 2 x K크기의 출력을 내도록 하였다. K는 attended될 영역의 수 이다.
SASM은 RAM에서 지정된 K개 영역의 패치를 입력으로 하여 real / fake 여부를 구분하도록 하였다.
가중치 수를 줄이기 위해 각 스트림마다 가중치는 동일하게 사용하고, 출력 부분에서 max-pooling을 사용한 뒤 1x1 conv와 BN, ReLU를 적용하여 K개의 256 크기의 벡터를 내도록 하였다.

4.2 Step-Wise Training

TASM을 먼저 학습시키고, 이를 고정한 뒤 RAM와 SASM을 학습시키는 방식을 반복하였다.

5. Experiments

6. Analysis

7. Conclusions

Add a Comment Trackback