읽기일기

Computer Vision : models, learning and inference (3) Common probability distributions

http://www.computervisionmodels.com/

앞에서 살펴본 확률에 대한 규칙에 따라 이제 확률 분포를 정의하고자 합니다. 확률 분포 $Pr(x)$의 선택은 우리가 모델링하려는 데이터 $x$의 도메인에 다라 달라지게 됩니다.

데이터 종류 도메인 분포
univariate, discrete, binary $x \in \{ 0, 1 \} $ Bernoulli
univariate, discrete, multi-valued $ x \in \{ 1, 2, \cdots, K \}$ Categorical
univariate, continuous, unbounded $ x \in R $ univariate normal
univarite, continuous, bounded $ x \in [0, 1] $ beta
multivariate, contunuous, unbounded $ \mathbf{x} \in R^K $ multivariate normal
multivariate, contunuous, bounded, sums to one $ \mathbf{x} \in [ x_1, x_2, \cdots, x_K ]^T \\ x_k \in [0, 1] , \sum_{k=1}^K x_k = 1$ Dirichlet
multivariate, continuous, $x_1$ unbounded, $x_2$ bounded below $ \mathbf{x} = [x_1, x_2] \\ x_1 \in R \\ x_2 \in R^+ $ normal-scaled inverse gamma
multivariate vector $\mathbf{x}$ and matrix $\mathbf{X}$, $\mathbf{x}$ unbounded, $\mathbf{X}$ square, positive definie $\mathbf{x} \in R^K \\ \mathbf{X} \in R^{K \times K} \\ \mathbf{z}^T \mathbf{X z} \text{greater than} 0, \forall \mathbf{z} \in R^K $ normal inverse Wishart

우리가 가진 데이터를 어떤 확률 분포 모델에 맞춰(fit)볼 때에는, 우리는 우리가 맞춘 것이 얼마나 불확실한 것인지 알아볼 필요가 있습니다. 이 불확실의 정도는 맞춰본 모델(fitted model)의 파라미터의 확률 분포로 표현할 수 있습니다. 따라서 모델링에 사용된 확률 분포는, 그것이 갖는 파라미터에 대한 분포를 하나 더 갖습니다.

이러한 맥락에서 내재된 파라미터의 확률 분포의 파라미터는 하이퍼파라미터라고 부를 수 있으며, 이 하이퍼파라미터가 데이터의 원래 분포가 놓여있는 분포를 결정합니다.

3.1 Bernoulli distribution

Bernoulli 분포는 discrete 분포로 binary trial를 모델링한 분포입니다. 이는 결과가 $x \in \{ 0, 1 \}$ 두개의 값만이 가능한 상황을 이야기하며 보통 이를 “성공(success)” 혹은 “실패(failure)”라고 부릅니다.

Bernoulli는 한개의 파라미터 $\lambda \in [0, 1]$을 갖습니다. 이는 성공 결과 $x=1$이 관측될 확률을 의미합니다. 따라서 분포는 아래와 같습니다.

$$Pr(x) = Bern_x[\lambda] = \lambda^x (1-\lambda)^{1-x}$$

3.2 Beta distribution

Beta 분포는 연속 분포로 하나의 변수 $\lambda \in [0, 1]$의 값을 가질 분포를 설명합니다. 따라서 이는 Bernoulli 분포의 파라미터의 불확실성을 표현하는데 적당합니다.

Beta 분포는 2개의 파라미터 $\alpha, \beta \in [0, \infty]$를 갖습니다. 그 식은 다음과 같습니다.

$$Pr(\lambda) = \text{Beta}_\lambda[\alpha, \beta] = \frac{\Gamma[\alpha + \beta]}{\Gamma[\alpha] \Gamma[\beta]} \lambda^{\alpha-1}(1-\lambda)^{\beta-1}$$

3.3 Categorical distribution

Categorical 분포는 discrete 분포로 K개 중 하나의 결과가 관측되는 것에 대한 분포입니다. 따라서 이것은 categorical 분포 중에서 K가 2인, 2개의 결과 값을 갖는 특별한 경우, Bernoulli 분포라고 이야기 할 수 있습니다.

K개의 결과에 해당하는 $K \times 1$개의 파라미터 $\mathbf{\lambda} = [\lambda_1, \cdots, \lambda_K] $를 가지며, $\lambda_k \in [0, 1]$이고 $\sum_{k=1}^{K} \lambda_k = 1 $입니다.

$$Pr(x = k) = \text{Cat}_x[\lambda] = \lambda_k$$

3.4 Dirichlet distribution

Dirichlet 분포는 K개의 연속된 값들 $\lambda_1, \cdots, \lambda_K$에 대한 분포입니다. 이들은 $\lambda_k \in [0, 1]$이며 $\sum_{k=1}^K \lambda_k = 1 $ 입니다. 따라서 categorical 분포의 파라미터에 대한 분포로 적당합니다.

K 차원의 Dirichlet 분포는 K개의 양수 파라미터 $\alpha_1, \cdots, \alpha_K$를 갖습니다.

$$Pr(\lambda_{1, \dots, K}) = \text{Dir}_{\lambda_1, \cdots, K}[\alpha_{1, \cdots, K}] = \frac{\Gamma[\sum_{k=1}^K \alpha_k]}{\prod_{k=1}^K \Gamma [ \alpha_k ] } \prod^K_{k=1} \lambda_k^{\alpha_k -1}$$

마찬가지로 beta distribution은 Dirichlet distribution의 한 특별한 경우입니다.

3.5 Univariate normal distribution

Univariate normal 분포는 Gaussian 분포라고도 알려져 있는데, $x\in[-\infty, \infty]$의 연속 구간에서의 값에 대한 분포를 갖습니다. Normal 분포는 두개의 파라미터를 갖는데, 분포가 피크인 지점을 나타내는 평균 $\mu$와 분포의 폭이 얼마나 클지를 결정하는 분산 $\sigma^2$이 그것입니다. 식은 아래와 같습니다.

$$Pr(x) = \text{Norm}_x [\mu, \sigma^2] = \frac{1}{\sqrt{2 \pi \sigma^2}}\exp [ -0.5 (x-\mu)^2/\sigma^2]$$

3.6 Normal-scaled inverse gamma distribution

Normal-scaled inverse gamma distribution은 두개의 연속된 값 $mu, \sigma^2$에 대한 분포를 정의합니다. 여기서 첫번째는 어떤 값이든 상관없지만 두번째는 양수내에서 연속인 값입니다. 앞에서와 마찬가지로 normal 분포의 파라미터에 대한 분포로 사용될 수 있습니다.

이는 4개의 파라미터 $\alpha, \beta, \gamma, \delta $를 가지며, $\delta$를 제외한 나머지는 양수를, $\delta$는 아무 값이나 가질 수 있습니다.

$$Pr(\mu, \sigma^2) = \text{NormInvGam}_{\mu, \sigma^2} [ \alpha, \beta, \gamma, \delta ] = \frac{\sqrt(\gamma)}{\sigma \sqrt{2 \pi}} \frac{\beta^\alpha}{\Gamma[\alpha]} (\frac{1}{\sigma^2})^{\alpha+1} \exp [ -\frac{2\beta + \gamma(\delta - \mu)^2}{2\sigma^2}]$$

3.7 Multivariate normal distribution

Multivariate normal 혹은 D차원 Gaussian 분포 모델은 D개의 연속된 값을 갖는 분포입니다. 마찬가지로 univariate normal 분포는 이것의 D가 1인 특별한 경우입니다.

Multivariate normal 분포는 2개의 파라미터를 가지는데, 평균 $\mathbf{\mu}$와 공분산 $\mathbf{\Sigma}$입니다. 평균은 $ D \times 1$의 크기를 가지며, 공분산은 $D \times D$의 symmetric, positive definite 행렬입니다. 따라서 어떠한 실수 벡터 $\mathbf{z}$에 대해서도 $\mathbf{z}^T \mathbf{\Sigma z} $는 양수가 됩니다.

$$Pr(x) = \text{Norm}_{\mathbf{x}}[\mathbf{\mu, \Sigma}] = \frac{1}{(2\pi)^{D/2} |\Sigma|^{1/2}} \exp [ -0.5(\mathbf{x} - \mathbf{\mu})^T \Sigma^{-1} (\mathbf{x} - \mathbf{\mu}) ]$$

3.8 Normal inverse Wishart distribution

Normal inverse Wishart 분포는 $ D \times 1$$ D \times D $ 행렬에 대한 분포입니다. 따라서 multivariate normal 분포의 파라미터에 대한 불확실성을 설명하기에 좋은 분포입니다. 이는 4개의 파라미터 $\alpha,\Psi, \gamma, \mathbf{\delta} $를 가집니다. $\alpha, \gamma$는 양의 실수이고, $\mathbf{\delta}$는 벡터, $\Psi$는 행렬입니다.

$$Pr(\mathbf{\mu}, \mathbf{\Sigma}) = \text{NorIWis}_{\mathbf{\mu, \Sigma}}[\alpha, \Psi, \gamma, \mathbf{\delta}] \\
= \frac{\gamma^{D/2} |\Psi|^{\alpha/2} \exp[ -0.5 (\text{Tr}[\Psi \mathbf{\Sigma}^{-1}] + \gamma(\mathbf{\mu} - \mathbf{\delta})^T \mathbf{\Sigma}^{-1} (\mathbf{\mu} - \mathbf{\delta}))]}{2^{\alpha D / 2} (2 \pi)^{D/2} |\mathbf{\Sigma}|^{(\alpha + D + 2)/2} \Gamma_D [\alpha/2]}$$

3.9 Conjugacy

앞에서 살펴본 것과 같이 어떤 분포는 다른 한 분포의 파라미터에 대하여 그 위에 놓여있다고 할 수 있습니다. 이러한 쌍의 관계는 주의 깊게 설정되어야 합니다. 그 이유는 서로 특별한 관계를 가지기 때문입니다.

우리는 전자의 분포는 후자의 분포를 conjugate한다 라고 표현을 사용하곤 합니다. 예를 들면, beta 분포는 Bernoulli를 conjugate, Dirichlet은 categorical을 conjugate한다라고 표현합니다.

분포를 그것의 conjugate로 곱할 때, 그 결과는 conjugate와 동일한 형태의 분포에 비례하는 형태로 나타납니다. 예를 들면 아래와 같습니다.

$$\text{Bern}_x [\lambda] \cdot \text{Beta}_\lambda[\alpha, \beta] = \kappa ( x, \alpha, \beta) \cdot \text{Beta}_\lambda [ \tilde{\alpha}, \tilde{\beta}]$$

여기서 $\kappa$는 스케일링 팩터로 우리가 관심있어 하는 $\lambda$에 의해 상수로 나타납니다.

이러한 Conjugate 관계는 중요합니다. 우리가 모델을 학습하고 평가할 때에, 분포들을 곱하게될 것이기 때문입니다. conjugate 관계는 이러한 곱들이 단힌 형태로 쉽게 계산할 수 있음을 나타냅니다.


Add a Comment Trackback