본문 바로가기

확률론과 수리통계

초기하분포

확률변수 $X$가 모수가 $(n,K,N)$인 초기하분포(Hypergeometric Distribution; 超几何分布)를 따를 때, $X \sim \mathrm{HG}(n,K,N)$라고 표현하고, $X$는 다음과 같은 PMF를 갖는다:

$$
f_{X}(k)=
\frac{{K \choose k}{N-K \choose n-k}}{N \choose n}
$$

초기하분포의 확률변수 $X$, 모수 $(n,K,N)$는 다음과 같은 의미를 갖는다:

$\space$


$X$: 비복원추출로 뽑은 목표의 개수.

$n$: 비복원추출의 총 횟수.

$K$: 목표의 개수.

$N$: 전체 개수.


$\space$

note: 초기하분포의 모수의 순서는 특별히 정해진 것은 없고 정의하기 나름이다. 그러므로 어떤 글에서 초기하분포가 언급되었을 때 PMF를 어떻게 정의하는지 잘 보자. 나는 $(n,K,N)$를 선호하는 편인데, 그것은 이항분포와 연관짓기 쉽기 때문이다. 후술.

초기하분포는 지난 글에서 이산분포를 설명할 때 예시로 다뤘던 분포이다. 다음과 같은 문제를 생각했었다.

$\space$


“상자 안에 검은공 60개와 빨간공 40개가 있다. 상자에서 한꺼번에 10개의 공을 꺼냈을 때, 검은공이 2개 나올 확률은 얼마일까?”


$\space$

그리고 이 문제의 답을 일반화 시켜서 다음을 구해냈다.

$$
P\left(\lbrace\mathrm{검은공이}\enspace k\mathrm{개}\rbrace\right)
=\frac{{60 \choose k}{40 \choose {10-k}}}{100 \choose 10}
$$

빨간공과 검은공 중 검은공을 목표라고 두면, 초기하분포의 확률변수 $X$, 모수 $(n,K,N)$을 다음과 같이 대응시킬 수 있다.

$\space$


$X$: 꺼낸 검은공의 개수.

$n$: 꺼낸 공의 개수. 여기서는 10.

$K$: 검은공의 개수. 여기서는 60.

$N$: 전체 공의 개수. 여기서는 100.


$\space$

즉 문제의 상황은 $X\sim\mathrm{HG}(10, 60, 100)$이다. 따라서 다음과 같이 쓸 수 있다.

$$
f_{X}(k)=P(X=k)
=\frac{{60 \choose k}{40 \choose {10-k}}}{100 \choose 10}
$$

이제 모수를 일반화하면, 다음과 같이 나타낼 수 있다.

$$
f_{X}(k)=P(X=k)
=\frac{{K \choose k}{N-K \choose {n-k}}}{N \choose n}
$$

$k$를 $x$로 바꾸면, 다음과 같이 쓸 수도 있다.

$$
f_{X}(x)=P(X=x)
=\frac{{K \choose x}{N-K \choose {n-x}}}{N \choose n}
$$

둘 중 어느 표기를 사용해도 사실 문제는 없다. 이것은 확률변수 $X$의 관측값을 어떤 문자로 표시하는가의 문제이다. 개인적으로 초기하분포는 $f_{X}(x)$보다는 $f_{X}(k)$를 선호하는데, PMF를 이루는 조합수들이 다음과 같이 예쁘게 맞아떨어지기 때문이다. 따라서 읽기도 쉽고 기억하기도 쉽다.

$\space$


분모 ${N \choose n}$: 총 $N$개에서 $n$개를 뽑음.

분자 ${K \choose k}$: 목표가 $K$개 있는데 그 중에서 $k$개를 뽑음.

분자 ${N-K \choose n-k}$: 목표가 아닌것이 $(N-K)$개 있는데 그 중에서 $(n-k)$개를 뽑음.


$\space$

그런데 목표를 $K$개라고 두지 않고, 목표의 비율을 $p$라고 둘 수도 있다. 이때, $p=\frac{K}{N}$이다. 그러면 초기하분포 $\mathrm{HG}(n, p, N)$의 PMF는 다음과 같다.

$$
f_{X}(k)=P(X=k)
=\frac{{Np \choose k}{N(1-p) \choose {n-k}}}{N \choose n}
$$

뭔가 복잡해보이지만, 사실 이해만 한다면 그렇게 난해한 식이 아니다. 이해를 돕는데는 다음과 같은 그림을 그리는 것이 좋다.

이렇게 목표의 비율을 $p$를 초기하분포의 모수로 삼으면, 초기하분포와 이항분포와의 관계를 생각해볼 수 있다. 앞서 $X$: 비복원추출로 뽑은 목표의 개수, $n$: 비복원추출의 총 횟수로 정의하면서 비복원추출(Sampling without Replacement; 不放回抽样)의 개념을 언급했다. 상자에서 공 $n$개를 꺼내는 방식은 크게 두 가지이다. 하나는 한꺼번에(예제에서도 강조한 단어이다) $n$개를 꺼내는 것이고, 이를 비복원추출이라고 한다. 다른 하나는 공1개를 꺼내고, 다시 그 공을 집어넣고 상자를 잘 섞고(=복원과정), 다시 공1개를 뽑는 방식으로 총 $n$회 시행하는 것으로 복원추출(Sampling with Replacement; 放回抽样)이라고 부른다.

복원추출에서 각 시행은 검은공이냐 빨간공이냐 두 가지의 결과를 도출하는 베르누이 시행이다. 그리고 상자를 다시 섞어서 초기상태로 복원하므로 각 시행은 독립적이다. 비복원추출에서 1개를 뽑는것도 두 가지의 결과를 도출하는 베르누이 시행이다. 그런데 ‘한꺼번에 뽑는다’는 것은 상자를 다시 섞는 과정이 없이 1개를 뽑은 그 상태로 계속 진행한다라는 말과 같다. 지금 검은공이 뽑힌상태라면, 다음에 검은공이 나올 확률 $p$는 줄어든다. 반대의 결과라면 증가한다. 매 시행의 확률이 다르므로 독립성은 만족하지 않는다.

따라서 $n$회의 복원추출은 이항분포 $\mathrm{Bin}(n,p)$로 모델링 할 수 있고, $n$회의 비복원추출은 앞서 보았듯 초기하분포 $\mathrm{HG}(n,p,N)$로 모델링 할 수 있다. 둘다 검은공이 나올 확률 $p$를 모수로 갖고, 똑같은 횟수의 베르누이 시행을 하지만, 복원이냐 비복원이냐, 즉 독립성 여부로 나뉘는 것이다.

그런데 이항분포에는 초기하분포의 모수인 $N$이 없다. 즉, 복원추출은 전체 공의 개수와는 상관이 없다는 것이다. $N$은 어디로 사라진 것일까? 지난 글에서 이항분포의 계산을 편리하게 하기 위해 $np$를 $\lambda$로 대체해서 푸아송 분포를 유도했다. 초기하분포도 이항분포처럼 $N$이 매우 큰 경우가 있을 때, 조합수를 계산하기 힘든 문제가 있을 것이다. 그렇다면 $N \rightarrow \infty$를 가정해서 초기하분포가 다른 간단한 분포에 수렴하도록 해보자. 이항분포에서 푸아송 분포를 유도하는 목적과 비슷하다.

매우 재미있는 결과가 나왔다. 초기하분포 $\mathrm{HG}(n,p,N)$의 $N \rightarrow \infty$일 때의 극한은 $\mathrm{Bin}(n,p)$이다. 이것은 비복원추출의 극한이 복원추출이 된다는 뜻이다. 이는 우리의 직관과도 일치한다. 전체 공의 개수 $N$이 충분히 클 때, 공을 몇 개 꺼내서 다시 집어넣든 집어넣지 않든 검은공의 비율 $p$는 크게 영향을 받지 않는다. 이것은 마치 $\frac{50}{1000} \approx \frac{48}{998}$인 경우와 같다.

초기하분포는 베르누이 분포와도 관련이 있다. 초기하분포에서 $n=1$이면 비복원추출을 1회 한 것이므로 1회의 베르누이 시행을 했다고 볼 수 있고,

$$
f_{X}(k)
=\frac{{Np \choose k}{N(1-p) \choose {1-k}}}{N \choose 1}
=\frac{{Np \choose k}{N(1-p) \choose {1-k}}}{N}
=\begin{cases}
p,&k=1
\\
1-p,&k=0
\end{cases}
$$

이기 때문에, 초기하분포의 PMF는 베르누이 분포의 PMF와 같아진다. 따라서 다음이 성립한다.

$$
\mathrm{HG}(1,p,N)=\mathrm{Bern}(p)
$$

2022.10.06 - [확률론과 수리통계] - 이항분포

2022.10.12 - [확률론과 수리통계] - 푸아송 분포

'확률론과 수리통계' 카테고리의 다른 글

연속확률변수와 연속분포  (2) 2022.10.14
이산분포 총정리  (0) 2022.10.13
푸아송 분포  (3) 2022.10.12
음이항분포  (0) 2022.10.08
기하분포  (0) 2022.10.06