읽기일기

패턴 인식 (2) 베이시언 결정 이론


패턴인식, 오일석 지음/교보문고

2. 베이시언 결정 이론

사람은 가장 그럴듯한 쪽으로 인식을 하게 되지만, 기계는 다르다. 사람은 의식 또는 무의식 세계에서 느낌을 동원하지만 컴퓨터는 그럴 수 없다. 따라서 이러한 개념을 수학이라는 틀을 동원해야만 한다. 바로 사후확률이다. 특징 벡터 x가 주어졌을 때, 그것이 부류 $w_i $인 경우 이 확률은 $ p(w_i | x) $로 표현한다.

2.1 확률과 통계

패턴 인식에서는 특징 벡터의 개별 특징 $ x_i $가 랜덤 변수, 특징 벡터 x는 랜덤 벡터가 된다. 이는 이산 값을 갖기도 하고 연속 값을 갖기도 한다.

다음은 관련 서적을 참고하도록 하자.

  • 조건부 확률
  • 결합 확률
  • 주변 확률
  • 독립
  • 사전 확률
  • 우도
  • 사후 확률

베이스 정리는 다음과 같다.

$$P(X, Y) = P(Y, X)$$

$$P(X) P (Y | X) = P(Y) P(X | Y)$$

$$P(X|Y) = \frac{P(Y|X)P(X)}{P(Y)}$$

다음 또한 관련 서적을 참고하도록 하자.

  • 평균
  • 분산
  • 평균 및 공분산

2.2 베이시언 분류기

분류 문제의 해결을 주어진 특징 벡터 x에 대하여 가장 그럴듯한 부류를 찾는 문제이다. 이를 수학으로 표현하면 다음과 같다.

  • $ P(w_1 | x) \gt P(w_2 | x) $ : $ x $$ w_1 $로 분류
  • $ P(w_1 | x) \lt P(w_2 | x) $ : $ x $$ w_2 $로 분류

이를 베이스 정리로 풀어내면 다음과 같이 우도와 사전 확률의 곱으로 나타낼 수 있다.

$$P(w_1 | x) = \frac{p(x | w_1) P(w_1)} { p(x)}$$

분류 문제라면 분모의 $ p(x) $는 무시해도 좋다. 사전 확률은 간단히 훈련 샘플 중에서 해당 부류가 몇개 있는지를 세어 $ P(w_1) = n_1 / N , P(w_2) = n_2 / N $로 추정할 수 잇다. 사실 우도를 만드는 것이 가장 중요하고 어려운 문제이다.

처음의 식을 다시 베이스 정리로 풀어내어 다시 쓰면,

  • $ P(x | w_1) P(w_1) \gt P(x | w_2) P(w_2) $ : $ x $$ w_1 $로 분류
  • $ P(x | w_1) P(w_1) \lt P(x | w_2) P(w_2) $ : $ x $$ w_2 $로 분류

와 같다. 이것이 바로 최소 오류 베이시언 분류기(minimum error Bayesian classifier)이다.

베이시언 분류기의 오류 확률(error probability)는,

$$E = 0.5 (\int_{- \infty}^t p(x|w_2)dx + \int_{t}^{\infty} p(x|w_1) dx)$$

으로 정의된다.

베이시언 분류기를 사용 중 오분류(misclassification)하는 경우가 발생하였을 경우, 이에 대한 손실의 정도가 서로 다른 경우가 있다. 이러한 손실에 대한 정도를 나타낸 행렬을 손실 행렬(loss matrix)이라고 한다. 이 손실 행렬을 이용하여 오류 확률에 손실도를 곱하면 평균 손실을 계산할 수 있고, 이 평균 손실을 최소화 하도록 베이시언 분류기를 수정할 수 있을 것이다. 이를 최소 위험 베이시언 분류기(minimum risk Bayesian classification)이라고 한다.

베이시언 분류기를 부등호를 이용하여 나타내고 식을 정리하면 결국,

$$\frac{p(x|w_1)}{p(x|w_2)} \lt \text{ or } \gt T$$

와 같은 형태로 우도의 비례와 임계값 T로 나타낼 수 있게 된다.

이러한 베이시언 분류기는 M개의 부류에 대해서도 확장할 수 있다.

2.3 분별 함수

베이시언 분류기의 수식을 분별 함수(discriminant function)이라 부르고 $ g_i(x) $ 으로 표시하기도 한다.

M개의 클래스에 대하여 이 분별 함수의 상대적인 크기를 비교하여 의사 결정을 할 수 있다. 따라서 log와 같이 단조 증가(monotonically increasing)하는 함수가 존재한다면 $f(g_i(x))$를 사용하여도 같은 결과를 얻는다. 그러한 용도에서 log 함수는 곱셉과 나눗셈을 덧셈과 뺄셈으로 바꾸어 주므로 매우 유용하다.

2.4 정규 분포에서 베이시언 분류기

직전에서 사후 확률을 직접 계산하는 것은 현실적으로 매우 어렵기 때문에 사전 확률과 우도의 곱으로 대치하였다. 여기서는 우도를 정규 분포(normal distribution)을 따른다고 가정하고 이야기를 진행해보도록 하자. 정규 분포는 몇가지 특성이 있는데,

  1. 현실 세계에 맞는 경우가 적지 않게 있다.
  2. 평균과 분산이라는 두 개의 매개 변수만으로 표현된다.
  3. 공분산 행렬이 모두 단위 행렬이라면 두 부류의 결정 경계는 직선인 것 등 좋은 특성이 많다.

정규 분포의 식은 책을 참고하도록 하자. 정규분포를 우도로 사용한다면, log를 통하여 지수 부분을 없앨 수 있을 뿐만 아니라 곱셈 또한 덧셈으로 바꿀 수 있다.

두 부류 $ w_i, w_j $를 결정할 수 있는 결정 경계(decision boundary)를 생각하여 보자. 어떤 점 x가 이 경계 위에 있다면 $ g_i(x) = g_j(x)$를 만족하여야 한다. 따라서 이러한 지점을 나타내는 함수 $g_{ij}(x) = g_i(x) - g_j(x) = 0 $를 결정 경계 함수라고 부른다.

만약 두 우도의 공분산 행렬이 같다고 한다면, 결정 경계는 선형식으로 나타나며, $ \Sigma^{-1}(u_i - u_j) $에 수직으로 나타난다. 이와 같이 결정 경계 함수를 계산하여 선형 분류기를 만드는 방법을 선형 분별 분석(linear discriminant analysis, LDA)라고 부른다.

공분산 행렬이 서로 같지 않은 경우, $ g_i(x) = g_j(x)$ 인 점이 이루는 결정 곡선은 2차 곡선이 된다. 이렇게 2차 분류기를 얻는 방법을 2차 분별 분석(quadratic disciminant analysis, QDA)라고 부른다.

이렇게 구해진 결정 경계는, 공분산 행렬에 대하여 마할라노비스 거리(mahalanobis distance)가 같은 지점을 구하는 문제와 동일한 문제로 볼 수 있다. 이런 시각에서는 베이시언 분류기를 최소 거리 분류기(minimum distance classifier)로 볼 수 있다.

2.5 베이시언 분류의 특성

지금까지 가정한 정규 분포를 가정한 베이시언 분류기는 다음과 같은 특성이 있다.

  1. 비현실성 - 일반적인 확률 분포를 사용하면 차원의 저주가 발생하기 때문에 정규 분포를 가정하면 실제 분포와 차이가 난다.
  2. 실제 확률 분포를 안다고 가정하면, 베이시언 분류기는 오류율 측면에서 최적이다.
  3. 베이시언 분류기는 각 부류에 대하여 그에 속할 확률로 해석할 수 있다.

차원의 저주를 피하기 위해 나이브 베이시언 분류기(naive Bayesian classifier)를 사용할 수 있다. 특징의 각 요소가 서로 독립이라고 가정한 뒤, 전체 우도는 각각의 특징에 대한 우도를 곱하여 계산할 수 있다.

$$p(x | w_i) = \prod_{j=1}^d p(x_j | w_i)$$

특징이 독립이라는 것은 매우 강한 가정이기 때문에 사용에 조심하여야 한다.

2.6 기각 처리

민감한 경우 분류를 보류하고 사람에게 제시해야할 상황도 있다. 베이시안 분류기에서는 두 확률 값 차이가 $ \Delta $ 이내인 영역은 기각(rejection) 처리를 할 수 있다. 즉 신뢰도가 적다는 뜻이다.


Add a Comment Trackback