읽기일기

Think Bayes (1) 베이즈 이론


파이썬을 활용한 베이지안 통계, 앨런 B. 다우니 지음, 권정민 옮김/한빛미디어

1. 베이즈 이론

1.1 조건부 확률

확률부터 시작해서 조건부 확률, 베이즈 이론, 베이지안 통계 순서로 설명하도록 하겠다.

확률은 명제 혹은 예측에 대한 확신도를 나타내는 0과 1사이의 숫자다. 1은 이 명제가 확실히 참이고, 0은 명제가 확실히 거짓이다. 그 사이의 값을 확실성의 정도를 나타낸다.

조건부 확률은 특정 조건 안에서의 확률이다. 조건부 확률이 일반적 표기법은 $p(A|B)$로, 이는 B라는 조건이 주어졌을 때의 A가 참일 확률이라는 뜻이다.

1.2 결합 확률

결합 확률은 두 가지에 대한 조건이 참임을 표현하는 방법이다. A와 B가 모두 참인 확률에 대해서 $p(A\text{ and } B)$처럼 쓴다.

동전이나 주사위 던지기에서는 $p(A\text{ and } B) = p(A) p(B)$이나, 이것은 A와 B가 모두 독립일 경우에만 막족한다. 형식적으로 나타내면 $p(B|A) = p(B)$일 때이다.

독립적이지 않는다면 $p(B|A) \gt P(B)$ 인 경우도 있을 것이다.

일반적으로 결합 확률은 다음과 같다.

$$p(A \text{ and } B ) = p(A) p(B|A)$$

1.3 쿠키 문제

첫 번째 그릇에는 바닐라 쿠키 30개, 초콜렛 쿠기 10개가 들어있고 두 번째 그릇에는 두 가지 쿠키가 종류별로 20개씩 들어있다. 그런데 어떤 그릇인지 보지 않고 한 그릇에서 임의의 쿠키를 집었는데 바닐라 쿠키였다. 그렇다면 이 때 이 바닐라 쿠키가 그릇 1에서 나왔을 가능성은 얼마일까?

이 경우 식으로는 $p(\text{Bowl 1 }|\text{Vanilla})$ 이지만 바로 계산하기는 쉽지 않다. 만약 그릇 1에서 바닐라 확률이 나올 확률은 얼마인지 생각해보면 다음과 같다.

$$p(\text{vanilla}|\text{Bowl 1}) = 3/4$$

하지만 $p(A|B) \neq p(B|A)$ 이다. 베이즈 이론을 이용해서 이를 구할 수 있다.

1.4 베이즈 이론

$$P(A \text{ and }B) = P(B \text{ and }A)$$

$$p(A \text{ and }B) = P(A)p(B|A)$$

$$p(B \text{ and }A) = P(B)p(A|B)$$

$$P(A)p(B|A) = P(B)p(A|B)$$

$$p(A|B) = \frac{P(A)p(B|A)}{P(B)}$$

바닐라 쿠키 문제의 경우,

$$p(B_1 | V) = \frac{p(B_1)p(V|B_1)}{p(V)}$$

로 표현할 수 있다.

이는 곳, $p(B_1 | V) = \frac{(1/2)(3/4)}{5/8} = 3/5 $ 이다.

1.5 통시적 해석

베이즈 이론을 다르게 해석할 수 있다. 데이터 D의 관점에서 봤을 때 가설 H의 확률을 수정해준다는 식이다. 이러한 방법을 통시적(diachronic) 해석이라고 한다. 통시적이란 무언가 시간에 따라 일어나는 것으로, 여기에서는 확률이 시간에 따라 새로운 데이터를 접하게 되면서 달라진다는 뜻이다.

$$p(H|D) = \frac{p(H) p(D|H)}{p(D)}$$

여기서 $p(H)$는 데이터를 보기 전의 사전 확률, $p(H|D)$는 데이터를 확인한 이후의 가설 확률, 혹은 사후 확률, $p(D|H)$데이터가 가설에 포함될 확률로 우도(가능도), $P(D)$ 어떤 가설에든 포함되는 데이터의 비율로 한정 상수라고 한다.

사전 확률은 보통 배경 지식을 가지고 결정하는 일도 있으나, 주관적으로 사용하는 사람도 있다.

우도는 보통 계산하기 쉬운 편이다. 여기서는 그냥 쿠기의 수를 세어보면 된다.

한정 상수는 까다로울 수 있다. 어떤 면에서는 데이터를 볼 수 있는 확률이라고 해도 되지만, 일반적인 경우 이 상수가 무엇을 의미하는지 정의하기가 어렵다. 보통은 다음 가정 집합을 단순화하여 정의한다.

  • 상호 배제 : 집합 중 하나의 가설만 참일 경우
  • 전체 포괄 : 다른 가능성이 전혀 없는 경우, 단 하나의 가설이라도 참일 경우

이런 성격의 가설 집합을 스윗(suite)이라고 하겠다.

쿠키 문제에는 쿠키가 그릇1이나 2에서 왔다는 것과 두 그릇은 상호 배제 및 전체 포괄적이라는 두 개의 가설만 있다.

$p(D)$는 전체 확률 법칙을 이용하여 계산할 수 있다. 배타적으로 두개의 확률만이 일어나기 때문에 아래와 같이 계산할 수 있다.

$$p(D) = p(B_1) p (D|B_1) + p(B_2) p(D|B_2)$$

$$p(D) = (1/2)(3/4) + (1/2)(1/2) = 5/8$$

1.6 M&M 문제

M&M에서는 여러 색의 초콜렛이 들어있는 과자로 시간에 따라 색의 조합을 바꿔왔다. 1995년 전에는 갈색 30%, 노랑 20%, 녹색 10%, 주황 10%, 황갈색 10%이었으나 1995년에 파란색을 추가하여 파랑 24%, 녹색 20%, 주황 16%, 노랑 14% 빨강 13%, 갈색 13%가 되었다.

한 사람이 M&M을 두 봉지 샀는데 각각 생산년도가 1994년, 1996년이었다. 생산년도를 모르는 채로 각 봉지에서 M&M을 하나씩 꺼냈을 때 한 알은 노란색이고 한 알은 녹색이었다면, 이 때 노랑 초콜렛이 1994년에 생산한 봉지에서 나왔을 확률은 얼마일까?

첫 단계는 가설을 수치화하는 것이다. 노란 초콜렛은 봉지 1에서, 녹색 초콜렛은 봉지 2에서 꺼냈다고 생각해야 한다. 이 때 가설은 다음과 같다.

  • A : 봉지 1은 1994년에 생산했을 때 봉지 2는 1996년에 생산했다.
  • B : 봉지 1은 1996년에 생산했고 봉지 2는 1994년에 생산했다.

이에 대해서 각 표로 만들어보자.

사전 확률 우도 사후 확률
A 1/2 (20)(20) 200 20/27
B 1/2 (10)(14) 70 7/27

첫 번째 열은 사전 확률로 1/2로 추정할 수 있다.
두 번째 열은 우도다. A인 경우라면 1994년 봉지에서 노란색은 20%의 확률로, 1996년 봉지에서 녹색은 20%의 확률로 나올 것이다. 이 둘을 곱해서 결합 확률을 구할 수 있다.
세 번째 열은 앞 두 값의 곱이다. 이 열의 합은 270인 한정 상수다.

값들을 확률 값이 아닌 수로 사용하여 표기하였지만 나중에 한정 상수를 통해 나누면 확률 값으로 되므로 결과에 영향을 미치지 않는다.

1.7 몬티 홀 문제

몬티 홀 문제는 인터넷을 찾아보도록 하자.

일단 D를 정의하여 보면, 우선 나는 문 A를 선택했고, 몬티는 문 B를 열어 자동차가 없다는 것을 보였주었다고 하자. 다음으로 가설을 정의하자. A, B, C는 자동차가 문 A, 문 B, 문 C에 있다는 가설이라고 하자.

사전 확률 우도 사후 확률
A 1/3 1/2 1/6 1/3
B 1/3 0 0 0
C 1/3 1 1/3 2/3

우도는 다음과 같이 해설 할 수 있따.

  • 만약 차가 문 A에 있다면 몬티는 문 B나 C를 열 수 있다. 따라서 몬티가 B를 선택할 확률은 1/2이다. 여기에 차가 문 A뒤에 있으므로 차가 문 B 뒤에 없을 확률은 1이다.
  • 만약 차가 문 B에 있다면 몬티가 B를 열어 차가 없었을 확률은 0이다.
  • 만약 차가 문 C에 있다면 몬티가 B를 열 수 밖에 없으므로 이 확률은 1이고, 1의 확률로 차가 없을 것이다.

나머지는 그냥 단순 계산이다. 결국 바꾸는 것이 나은 것이다.

만약 문제를 변형 시켜, 몬티가 가능한 항상 B를 선택하고, 그럴 수 없을 때에는 C를 선택한다고 하면 표는 다음과 같이 수정된다.

사전 확률 우도 사후 확률
A 1/3 1 1/3 1/2
B 1/3 0 0 0
C 1/3 1 1/3 1/2

차가 A뒤에 있다면 문 B나 C를 선택할 수 있는게 아니라 항상 B를 선택할 것이므로 A의 우도가 1이 되어버렸다. 이러한 경우 몬티가 B를 골라 열어주는 것이 별다른 정보를 제공하지 않으므로 참가자가 위치를 바꾸든 안 바꾸든 확률은 같다.

1.8 토의

조건부 확률의 문제에서 베이즈 이론은 분할-정복(divide-and-conquer) 전략을 제시해준다. 만약 $p(A|B)$를 계산하기 어렵거나 측정하기 어렵다면, $p(B|A), p(A), p(B)$를 계산하는 것이 더 쉬운지 확인해보자.


Add a Comment Trackback