본문 바로가기

확률론과 수리통계

기하분포

2022.10.05 - [확률론과 수리통계] - 이산확률변수, 확률질량함수, 이산분포, 누적분포함수

확률변수 $X$가 모수가 $p$인 기하분포(Geometric Distribution; 几何分布)를 따를 때, $X \sim \mathrm{Geo}(p)$라고 표현하고, $X$는 다음과 같은 PMF를 갖는다:

$$
f_{X}(x)=p(1-p)^{x-1}
$$

기하분포의 확률변수 $X$, 모수 $p$는 다음과 같은 의미를 갖는다:

$\space$


$X$: 베르누이 시행의 결과가 성공일 때까지의 총 독립시행횟수.

$p$: 각 베르누이 시행의 성공확률.


$\space$

기하분포도 이항분포와 마찬가지로 PMF가 확률의 곱으로 표현되기 때문에 독립성이 강조되어야 한다.

기하분포가 모델링하고자 하는 상황은 어떤 것이 있을까? 임의의 횟수의 독립적인 베르누이시행을 할 때, 성공의 총 횟수를 이항분포로 모델링했었다. 그런데, 다음과 같은 문제를 생각해보자.

“나는 어떤 게임아이템을 가챠에서 뽑으려고 하는데, 매번 가챠를 돌릴 때마다 이 아이템이 뽑힐 확률은 10%라고 한다. 지금 수중의 돈으로는 가챠를 최대 10번 돌릴 수 있다. 아이템이 뽑힐 때까지 계속 가챠를 돌릴 때, 10번 이하의 시도로 아이템이 뽑힐 확률이 얼마일까?”

이 문제는 다음과 같이 해결한다.

$\space$


1번의 시도로 아이템을 뽑을 확률은 $(0.1)$,

2번의 시도로 아이템을 뽑을 확률은 $(0.1) \cdot (0.9)$,

3번의 시도로 아이템을 뽑을 확률은 $(0.1) \cdot (0.9)^2$,

4번의 시도로 아이템을 뽑을 확률은 $(0.1) \cdot (0.9)^3$,

…,

$k$번의 시도로 아이템을 뽑을 확률은 $(0.1) \cdot (0.9)^{k-1}$와 같다.


$\space$

이제 이것을 일반화 하면, 기하분포의 PMF를 얻는다. 가챠를 돌리는 것을 독립적인 베르누이시행이라고 두고, 아이템을 뽑는다는 것을 시행의 성공이라고 하자. 그러면 성공이라는 결과가 나올 때 까지의 총 시행횟수 $X$에 대해, $P(X=x)=(0.1) \cdot (0.9)^{x-1}$이다.

$X$는 운이 좋으면 1, 2, 3 같은 작은 수일 수도 있지만, 운이 좋지 않다면 10이상일 수도 있다. 100을 넘길 수도 있고, 1000을 넘길 수도 있다. 즉, 이항분포와는 달리 기하분포에서 베르누이 시행의 횟수는 정해져 있지 않다. 그 대신 성공이라는 목표를 정해놓고, 그것이 달성될 때까지 얼마만큼의 시행이 필요한가에 관심이 있다.

이제 이 문제를 해결해보자. 이 문제는 $X \sim \mathrm{Geo}(0.1)$일 때 $P(X \le 10)$을 계산하라는 문제와 같다. 다음과 같이 계산하자.

$$
\begin{split}
P(X \le 10)
&= \sum_{x=1}^{10}P(X=x)
\\
&= \sum_{x=1}^{10} \left[(0.1)\cdot(0.9)^{x-1} \right]
\\
&= 0.1 \cdot \sum_{x=1}^{10} (0.9)^{x-1}
\\
&= 0.1 \cdot \left( \frac{(0.9)^0(1-0.9^{10})}{1-0.9} \right)
\\
&= 0.651
\end{split}
$$

즉, 10번 이하의 시도로 내가 원하는 아이템을 얻을 확률이 60%가 넘는다. 각각의 성공확률이 10%로 비교적 작은 것을 감안하면 이는 매우 놀라운 결과이다.

note: 계산식에서 $\sum_{x=1}^{10} (0.9)^{x-1}$은 초항이 $(0.9)^0$이고 공비가 $0.9$인 등비수열(Geometric Sequence; 等比数列)의 제 1항부터 제 10항까지의 합으로 볼 수 있다. ‘기하’분포라는 이름은 바로 이 등비수열, 영어로는 기하수열에서 따온 것이다. 즉, 한국어에서는 ‘등비분포’라는 이름이 더 적절하다고 볼 수 있다.

기하분포 $\mathrm{Geo}(0.1)$의 PMF $f(x)=(0.1)\cdot(0.9)^{x-1}$은 지수함수의 변형이므로 그래프의 형태는 쉽게 예측할 수 있다. 그려보면 다음과 같다. 그래프에서 붉은 부분이 위에서 계산한 $P(X \le 10)$이다.

https://homepage.stat.uiowa.edu/~mbognar/applets/geo2.html

 

'확률론과 수리통계' 카테고리의 다른 글

푸아송 분포  (0) 2022.10.12
음이항분포  (0) 2022.10.08
이항분포  (0) 2022.10.06
베르누이 분포  (0) 2022.10.06
이산확률변수와 이산분포  (0) 2022.10.05