논문

하루에도 수만개의 글자를 읽고 있습니다. 하루에도 수백장의 종이를 들춰 읽습니다.
이것은 그 읽기에 대한 일기입니다.

Probabilistic Face Embeddings

Problem

  • 많은 얼굴 인식 시스템이 알려진 DB들에서 좋은 성능을 보이고 있지만, surveilance video와 같은 unconstrained 시나리오에서처럼, 다양한 종류나 다양한 각도의 얼굴에 대해서도 얼굴 인식을 해내야 하는 요구가 생겨나고 있다.
  • 이러한 얼굴들로부터는 학습된 모델이 제대로 feature를 추출해낼 수 없을 것이고, 때문에 matching의 정확도 또한 떨어질 것이다.

Essence

  • 이러한 문제를 해결하기 위해 얼굴 이미지에 대하여 latent spcae내의 한 지점을 추정하는 대신 분포를 추정하는 Probabilistic Face Embeddings (PFEs)를 제안하였다.

    • 분포의 평균은 가장 likely한 latent feature로 해석할 수 있을 것이고, 분포의 span은 추정치의 uncertainty로 해석할 수 있다.
  • PFE는 unconstrained 환경의 얼굴 인식 문제를 두가지 방법으로 해결하려 한다.

    • 매칭 과정에서 uncertain feature는 penalize하고 좀더 신뢰도가 높은 feature에 집중한다.
    • PFE로부터 나온 신뢰도를 이용하여 낮은 품질의 입력은 사전에 차단한다.
  • 또한 동일한 얼굴의 여러 이미지들을 하여 낮은 uncertainty를 갖는 새로운 분포로 aggregate하는 방법도 생각할 수 있다.

Detail

  • Image space를 , 차원의 latent feature space를 라고 하자.

  • 이상적인 경우, feature는 이미지에서 인물의 중요한 특징만을 encode해야하고, 이 code 는 유일해야한다. 이로부터 관찰된 이미지는 확률 의 한 샘플로 볼 수 있고, 우리는 이것의 inverse mapping인 를 학습하고자 하는 상황으로 볼 수 있다.

    • Deterministic embedding의 경우 이 mapping은 Derac delta function 가 되기 때문에 에 노이즈가 생기는 경우 정확한 를 복구하는 것은 어렵고, 낮은 품질의 입력인 경우 본래의 로부터 먼 곳으로 shift되어 나타나게 될 것이다.
  • 문제는 inter-class간 거리보다 intra-class 거리 내에서 이 shift가 이루어지냐는 것인데, deteminstic 모델을 사용하는 경우에는 이것이 unrealistic한 상황이다.

    • 심지어 얼굴을 포함하지 않는 완전히 동일한 이미지를 입력하는 경우 모델은 동일한 feature를 출력할 것이지만, 이것이 어떤 인물을 나타내는 embedding feature를 의미한다고 생각하기는 힘들다.
    • 논문에서는 이를 간단한 CNN 모델에서 이미지를 점진적으로 degrade시켜가면서 거리를 측정하여 이를 더 고찰하였다.
  • 따라서 논문에서는 latent space내에서 어떤 지점이 아닌 분포를 추정하고자 한다.

    • 분포는 multivariate Gaussian distribution으로 가정하여 로 나타내고, 계산을 단순화하기 위해 diagonal covariance matrix를 가지도록 하였다.

    • 이제 추정된 값은 다음과 같은 의미를 가진다.

      • 중점 는 가장 입력 이미지에 likely한 얼굴 feature를 나타낸다.
      • Uncertainty 는 모델이 추정한 feature의 신뢰도를 나타낸다.
    • 이 값들은 하나의 네트워크로 추정될 것이다.

  • 이제 매칭 과정은 두 이미지가 얼마나 비슷할지의 확률로 생각하여 다음과 같은 식으로 생각할 수 있다.

    • 이를 mutual likelihood score (MLS)라고 하며, 기존 연구에서 사용하던 squared Euclidean distance는 MLS의 특별한 경우라고 볼 수 있으며 다음과 같은 관점에서 생각할 수 있다.

      • Attention mechanism : 낮은 uncertain을 가지는 차원에 더 많은 weight를 주도록 하여 weighted distance를 계산 (첫번째 항)
      • Penalty mechanism : 높은 uncertatiny를 가지는 차원에 penalty를 주도록 계산 (두번째 항)
      • 두 입력이 높은 uncertainty를 가지는 경우, 평균 값에 관계없이 MLS는 낮아짐
      • 두 입력이 낮은 uncertinaty를 가지고 평균이 가까운 경우에만 MLS가 높아짐
  • 동일한 인물의 여러 얼굴 이미지가 존재하는 경우, 모든 이미지 입력에 대해 independent하다고 가정하면 다음과 같이 표현할 수 있다.

    • 이 식은 새로운 Gaussian distribution으로 생각할 수 있고, 그 파라미터는 , 이다.
  • 만약 모든 차원이 같은 uncertainty를 가진다고 가정한다면, 그 역수 를 모델의 출력에 대한 quality value로 사용할 수 있다.

    • 각 평균 값을 quality value로 가중치 평균하면 quality-aware aggregation 방법으로 사용할 수 있다.
  • 학습 방법은 stage-wise 방식으로 진행하였다.

    • 기존의 방법으로 학습된 모델 를 준비한뒤, 이것의 파라미터를 고정시키고 로 사용한 뒤, uncertainty 모듈을 추가로 학습하였다.
    • Uncertainty 모듈은 2개의 FC layer로 구성되어있고, 기존 모델의 백본을 공유한다. 로스는 아래와 같이 사용하였다.
    • 여기서 는 positive pair를 나타낸다.

Add a Comment Trackback