논문

하루에도 수만개의 글자를 읽고 있습니다. 하루에도 수백장의 종이를 들춰 읽습니다.
이것은 그 읽기에 대한 일기입니다.

Towards Universal Representation Learning for Deep Face Recognition

  • 최근 얼굴 인식에서 도메인간의 거리를 좁히기 위해 사용하는 domain adaptation 등의 방법과는 달리 여기에서는 하나의 universal deep feature representation을 학습하고자 한다.
  • 먼저 한 샘플로부터 생성된 embedding이 Gaussian 분포를 따르는 feature space에 존재하는 probabilstic embedding이라고 생각할 수 있다.
  • 이 때, 한 샘플이 주어진 경우 이것이 어느 한 prototype identity에 속할 likelihood는 Gaussian 분포 수식에 따른 거리로 계산할 수 있고, 이 분포에서 분산 값의 역수 를 그 샘플의 신뢰도로 정의한다.
  • 다른 얼굴 인식과 같이 prototype identity vector와 샘플의 feature vector가 L2-normalized unit sphere위에 존재한다고 생각하면 이는 곧 AM-Softmax와 비슷한 꼴이 된다.
  • 한가지 다른 점은 AM-Softmax에서는 신뢰도를 상수를 사용하기 때문에 각 샘플마다 같은 신뢰도를 갖는 것처럼 사용하지만, 샘플마다 품질이 다르기 때문에 이것은 타당하지 않다.
  • 따라서 백본으로부터 이 신뢰도값 또한 predict하여 각 샘플마다 다르게 신뢰도를 지정하여 사용하도록 수정하여 샘플로부터 발생하는 그래디언트의 gate의 역할을 할 수 있도록 하였다.
  • 한편 embedding의 각 요소들간의 correlation이 꽤 높기 때문에 이를 줄이기 위해 sub-embedding으로 나누는 방법을 사용하였다.
  • Embedding vector를 동일 길이를 갖는 K개의 sub-embedding으로 나누고, full unit-sphere에서 embeding과 identity vector를 내적하는 대신, 각각의 sub unit-sphere에서의 내적을 계산하여 이를 가중치 평균한 값을 사용하였다. 각 샘플에 대한 sub-embedding의 신뢰도 값 또한 별도로 사용된다.
  • 여기에 특정 샘플에 over-confident 되는 것을 방지하기 위해 출력된 신뢰도 값에 L2 regularization을 걸어주었다.
  • Sub-embedding끼리도 correlation이 남아있어 이를 줄이기 위해, 각 sub-embedding에 대해 서로 다른 regularization을 적용하도록 하였다.
  • 일부 sub-embedding들에는 augmentation variation을 classification 할 수 있도록 하고 나머지 sub-embedding들에는 variation의 adversarial loss를 주어 두 sub-embedding이 서로 다른 variation과 연관되도록 하였다.
  • Correlation을 더 줄이기 위해서 augmentation으로 만들기 어려운 표정과 같은 attribute 항목 또한 variation에 적용하기로 하였다.
  • 공개된 데이터셋을 통해 표정을 predict하는 별도의 모델을 학습 시키고, 이 값을 soft label로 사용한 뒤, 앞서 사용한 sub-embedding의 variation으로 사용하였다.
  • 한편 샘플의 신뢰도는 uncertainty로 생각할 수 있어 이를 이용하여 similarity score를 계산할 수 있었다.
  • Variation augmentation은 저해상도를 위해서 3에서 11 사이 크기의 Gaussian filter를 적용하고, 이미지를 7x7 영역으로 나누어 무작위로 검은 마스크를 씌웠다. PRNet을 이용하여 정면에 가까운 얼굴의 3D 모델을 구하여 40에서 60도 사이의 값으로 회전 시킨 이미지를 생성시켰다.

Add a Comment Trackback