이번 글에서는 조건부 확률모형에 대해 알아보자. 조건부 확률에서 가장 유명한 문제는 역시 다음과 같은 ‘아들 딸 문제’일 것이다:
“두 자녀가 있는 가정을 방문하여 이미 아들을 한 명 보았다. 남은 한 자녀도 아들일 확률을 구하여라.”
아들을 낳을 확률과 딸을 낳을 확률이 동일하다고 가정하자. ‘아들’을 ‘1’, 딸을 ‘0’으로 두면, 표본공간 $\Omega=\lbrace(1,1),(1,0),(0,1),(0,0)\rbrace$이고 각 근원사건의 확률은 같다.
그런데 이미 아들을 한명 보았으므로 $\lbrace(0,0)\rbrace$은 일어날 수 없다. 다시 말해 ‘이미 아들을 한 명 보았다’는 조건이 붙은 이상, 표본공간은 $\Omega^\prime=\lbrace(1,1),(1,0),(0,1)\rbrace$으로 수정되어야 한다. 그리고 ‘아들을 한 명 보았고, 두번째 자녀도 아들’인 사건은 ‘두 자녀 모두 아들이다’, 즉 $\lbrace(1,1)\rbrace$와 같다. 그러므로 구하려는 확률은
$$
p=\frac{\vert\lbrace(1,1)\rbrace\vert}{\vert\lbrace(1,1),(1,0),(0,1)\rbrace\vert}=\frac{1}{3}
$$
맞는 계산 같지만 어딘가 찜찜하다. 그 이유는 멋대로 표본공간을 수정했기 때문이다. 그렇다면 표본공간을 수정하지 않고 계산이 되도록 식을 변형해보자. 이 문제는 최소 1명의 아들이 있음을 확인한 상태에서 최소 2명의 아들이 있음을 확인할 확률과 같다. 사건 $E_i$를 ‘최소 $i$명의 아들이 있다.’라고 놓자. 그러면
$$
\begin{split}
p&=\frac{\vert\lbrace(1,1)\rbrace\vert/\vert\Omega\vert}{\vert\lbrace(1,1),(1,0),(0,1)\rbrace\vert/\vert\Omega\vert}
\
&=\frac{P(\lbrace(1,1)\rbrace)}{P(\lbrace(1,1),(1,0),(0,1)\rbrace)}=\frac{P(E_2)}{P(E_1)}
\end{split}
$$
그런데 최소 2명의 아들이 있다는 사건은 최소 1명의 아들이 있다는 사건을 함축한다, 즉 $E_2 \subset E_1$이므로 $E_2=E_1E_2$이다. 따라서 다음과 같이 고쳐써도 문제가 없다.
$$
p=\frac{P(E_1E_2)}{P(E_1)}
$$
이것을 사건 $E_1$이 발생했다는 조건에서 사건 $E_2$가 발생할 조건부 확률(Conditional Probability; 条件概率)이라고 하고, 기호로는 다음과 같이 나타낸다.
$$
P(E_2\mid E_1):=\frac{P(E_1E_2)}{P(E_1)}
$$
그런데 왜 $P(E_2\mid E_1):=\frac{P(E_2)}{P(E_1)}$이 아니라 $P(E_2\mid E_1):=\frac{P(E_1E_2)}{P(E_1)}$일까? 이 문제는 사실 $E_2$가 $E_1$을 함축하는 특수한 경우이다. 두 사건 간 함축관계가 없는 경우가 더 일반적일 것이다. 임의의 사건 $E_1$, $E_2$에 대해, (1) $E_2 \subset E_1$인 상황과 (2) 상호간 어떤 함축관계도 존재하지 않는 상황을 다음과 같은 벤 다이어그램으로 나타낼 수 있다. 두 상황은 명백히 다르고, 상황 (2)가 더 일반적인 상황이므로, 일반적인 상황에서도 조건부 확률을 계산하기 위해서 저렇게 정의했다.
조건부 확률을 구할 때, 표본공간 $\Omega$를 ‘수정’했었다. 이 말이 찜찜했지만, 사실은 어느정도 맞는 말이다. 우선 $P(E_2\mid E_1):=\frac{P(E_1E_2)}{P(E_1)}$에서 $E_1$은 새로운 표본공간처럼 취급된다. 그림에서 알 수 있듯이, 원래 전체 면적(노란색)으로 분모를 잡아야 하는데, $E_1$이라는 사건이 발생한 것을 안 후에는 $E_1$의 면적(파란색)으로 분모를 잡아야 하는 것이다. 그리고 분자는 $E_1$에 포함되는 부분 중 $E_2$의 면적(보라색)이다. $E_1$에 포함되지 않은 $E_2$는 분자로 계산하지 않는다. 새로운 표본공간에 포함되지 않기 때문이다.
그렇다면 $E_1$이라는 조건이 붙지 않은 $E_2$의 확률은 어떨까? 이때는 $E_1=\Omega$로 놓으면 된다. 모든 사건은 $\Omega$에 포함되고, $P(\Omega)=1$이므로,
$$
P(E_2\mid \Omega)=\frac{P(\Omega E_2)}{P(\Omega)}=P(E_2)
$$
즉, $\Omega$가 발생했다는 조건은 $E_2$의 발생에 아무런 영향도 미치지 않는다. $\Omega$는 확률이 1인 필연사건이므로 그냥 당연한 일이 일어난 것으로 취급되는 것이다. 너무나도 당연해서 아무런 의미가 없는 조건이라는 뜻이다.
note1: 이렇게 어떤 사건이 다른 사건의 발생에 영향을 전혀 미치지 않는다는 것을 두 사건의 독립(Independence; 独立)이라고 표현한다.
note2: 실제로 조건부 확률을 적극적으로 활용하는 베이즈 확률론자들은 확률을 일종의 ‘믿음’이라고 보며, 관찰된 증거에 의해 ‘믿음’이 ‘수정’되어야한다고 본다. 이때, 증거는 확률이 작을 수록 많은 정보를 담고 있다고 여겨진다. 즉, 어떤 사건의 발생확률과 그 사건이 담고 있는 정보량(Information Content; 信息量)은 반비례한다는 것이다. 사건의 확률이 클 수록, 그 사건은 원래 발생해야할 것, 발생할만한 것, 규칙적인 것으로 이해되며, 엔트로피(Entropy; 熵), 즉 무질서도가 낮다고 이해된다. 반면, 사건의 확률이 작다면 그것은 매우 불확실하고 불규칙한 상황으로, 엔트로피가 높다고 여겨진다. 이와 같은 확률과 엔트로피의 관계에 착안하여 정보량의 기댓값을 정보 엔트로피(Information Entropy; 信息熵)라고 부르기도 한다. 정보량 $I(E)=\log_{2}\left(\frac{1}{P(E)}\right)$, 정보 엔트로피 $\eta(E)=\mathbb{E}[I(E)]$.