논문

하루에도 수만개의 글자를 읽고 있습니다. 하루에도 수백장의 종이를 들춰 읽습니다.
이것은 그 읽기에 대한 일기입니다.

Probabilistic Face Embeddings

9월 4th, 2020 Posted by 룬룬

Problem

많은 얼굴 인식 시스템이 알려진 DB들에서 좋은 성능을 보이고 있지만, surveilance video와 같은 unconstrained 시나리오에서처럼, 다양한 종류나 다양한 각도의 얼굴에 대해서도 얼굴 인식을 해내야 하는 요구가 생겨나고 있다.
이러한 얼굴들로부터는 학습된 모델이 제대로 feature를 추출해낼 수 없을 것이고, 때문에 matching의 정확도 또한 떨어질 것이다.

Essence

이러한 문제를 해결하기 위해 얼굴 이미지에 대하여 latent spcae내의 한 지점을 추정하는 대신 분포를 추정하는 Probabilistic Face Embeddings (PFEs)를 제안하였다.
- 분포의 평균은 가장 likely한 latent feature로 해석할 수 있을 것이고, 분포의 span은 추정치의 uncertainty로 해석할 수 있다.
PFE는 unconstrained 환경의 얼굴 인식 문제를 두가지 방법으로 해결하려 한다.
- 매칭 과정에서 uncertain feature는 penalize하고 좀더 신뢰도가 높은 feature에 집중한다.
- PFE로부터 나온 신뢰도를 이용하여 낮은 품질의 입력은 사전에 차단한다.
또한 동일한 얼굴의 여러 이미지들을 하여 낮은 uncertainty를 갖는 새로운 분포로 aggregate하는 방법도 생각할 수 있다.

Detail

Image space를 $\mathcal{X}$ , $D$ 차원의 latent feature space를 $\mathcal{Z}$ 라고 하자.
이상적인 경우, feature는 이미지에서 인물의 중요한 특징만을 encode해야하고, 이 code $\mathbf{z} \in \mathcal{Z}$ 는 유일해야한다. 이로부터 관찰된 이미지는 확률 $p(\mathbf{x}|\mathbf{z})$ 의 한 샘플로 볼 수 있고, 우리는 이것의 inverse mapping인 $p(\mathbf{z}|\mathbf{x})$ 를 학습하고자 하는 상황으로 볼 수 있다.
- Deterministic embedding의 경우 이 mapping은 Derac delta function $p(\mathbf{z}|\mathbf{x}) = \delta (\mathbf{z} - f(\mathbf{x}))$ 가 되기 때문에 $\mathbf{x}$ 에 노이즈가 생기는 경우 정확한 $\mathbf{z}$ 를 복구하는 것은 어렵고, 낮은 품질의 입력인 경우 본래의 $\mathbf{z}$ 로부터 먼 곳으로 shift되어 나타나게 될 것이다.
문제는 inter-class간 거리보다 intra-class 거리 내에서 이 shift가 이루어지냐는 것인데, deteminstic 모델을 사용하는 경우에는 이것이 unrealistic한 상황이다.
- 심지어 얼굴을 포함하지 않는 완전히 동일한 이미지를 입력하는 경우 모델은 동일한 feature를 출력할 것이지만, 이것이 어떤 인물을 나타내는 embedding feature를 의미한다고 생각하기는 힘들다.
- 논문에서는 이를 간단한 CNN 모델에서 이미지를 점진적으로 degrade시켜가면서 거리를 측정하여 이를 더 고찰하였다.
따라서 논문에서는 latent space내에서 어떤 지점이 아닌 분포를 추정하고자 한다.
- 분포는 multivariate Gaussian distribution으로 가정하여 $p(\mathbf{z}|\mathbf{x}_i) = \mathcal{N}(\mathbf{z};\mathbf{\mu}_i,\mathbf{\sigma}_i^2\mathbf{I})$ 로 나타내고, 계산을 단순화하기 위해 diagonal covariance matrix를 가지도록 하였다.
- 이제 추정된 값은 다음과 같은 의미를 가진다.
  - 중점 $\mathbf{\mu}$ 는 가장 입력 이미지에 likely한 얼굴 feature를 나타낸다.
  - Uncertainty $\mathbf{\sigma}$ 는 모델이 추정한 feature의 신뢰도를 나타낸다.
- 이 값들은 하나의 네트워크로 추정될 것이다.
이제 매칭 과정은 두 이미지가 얼마나 비슷할지의 확률로 생각하여 다음과 같은 식으로 생각할 수 있다.
- $s(\mathbf{x}_i, \mathbf{x}_j) = \log p(\mathbf{x_i}= \mathbf{x_j}) = -\frac{1}{2}\sum_{l=1}^D (\frac{\mu_i^{(l)}-\mu_j^{(l)}}{\sigma_i^{2(l)} - \sigma_j^{2(l)}}+ \log(\sigma_i^{2(l)} + \sigma_j^{2(l)})) - \frac{D}{2} \log 2 \pi$
- 이를 mutual likelihood score (MLS)라고 하며, 기존 연구에서 사용하던 squared Euclidean distance는 MLS의 특별한 경우라고 볼 수 있으며 다음과 같은 관점에서 생각할 수 있다.
  - Attention mechanism : 낮은 uncertain을 가지는 차원에 더 많은 weight를 주도록 하여 weighted distance를 계산 (첫번째 항)
  - Penalty mechanism : 높은 uncertatiny를 가지는 차원에 penalty를 주도록 계산 (두번째 항)
  - 두 입력이 높은 uncertainty를 가지는 경우, 평균 값에 관계없이 MLS는 낮아짐
  - 두 입력이 낮은 uncertinaty를 가지고 평균이 가까운 경우에만 MLS가 높아짐
동일한 인물의 여러 얼굴 이미지가 존재하는 경우, 모든 이미지 입력에 대해 independent하다고 가정하면 다음과 같이 표현할 수 있다.
- $p(\mathbf{z}|\mathbf{x}_1, \cdots, \mathbf{x}_{n+1}) = \alpha \frac{p(\mathbf{z}|\mathbf{x}_{n+1})}{p(\mathbf{z})} p(\mathbf{z}|\mathbf{x}_1, \cdots, \mathbf{x}_n)$
- 이 식은 새로운 Gaussian distribution으로 생각할 수 있고, 그 파라미터는 $\hat{\mu}_n = \sum_{i=1}^n \frac{\hat{\sigma}_n^2}{\sigma_i^2}\mu_i$ , $\frac{1}{\hat{\sigma}^2_n} = \sum_{i=1}^n \frac{1}{\sigma^2_i}$ 이다.
만약 모든 차원이 같은 uncertainty를 가진다고 가정한다면, 그 역수 $q_i = \frac{1}{\sigma^2_i}$ 를 모델의 출력에 대한 quality value로 사용할 수 있다.
- 각 평균 값을 quality value로 가중치 평균하면 quality-aware aggregation 방법으로 사용할 수 있다.
학습 방법은 stage-wise 방식으로 진행하였다.
- 기존의 방법으로 학습된 모델 $f$ 를 준비한뒤, 이것의 파라미터를 고정시키고 $\mathbf{\mu}(\mathbf{x}) = f(\mathbf{x})$ 로 사용한 뒤, uncertainty 모듈을 추가로 학습하였다.
- Uncertainty 모듈은 2개의 FC layer로 구성되어있고, 기존 $f$ 모델의 백본을 공유한다. 로스는 아래와 같이 사용하였다.
- $\mathcal{L} = \frac{1}{|\mathcal{P}|} \sum_{(i, j) \in \mathcal{P}}-s(\mathbf{x}_i, \mathbf{x}_j)$
- 여기서 $\mathcal{P}$ 는 positive pair를 나타낸다.

Add a Comment Trackback