확률변수 $X$가 모수가 $(r,p)$인 음이항분포(Negative Binomial Distribution; 负二项分布)를 따를 때, $X \sim \mathrm{NB}(r,p)$라고 표현하고, $X$는 다음과 같은 PMF를 갖는다:
$$
f_{X}(x)={x-1 \choose r-1}p^{r}(1-p)^{x-r}
$$
음이항분포의 확률변수 $X$, 모수 $(r,p)$는 다음과 같은 의미를 갖는다:
$\space$
$X$: 베르누이 시행의 결과가 $r$번 성공일 때까지의 총 독립시행횟수.
$r$: 목표 성공 횟수.
$p$: 각 베르누이 시행의 성공 확률.
$\space$
음이항분포는 어떤 의미를 가질까? 지난 글에서 공부한 기하분포와 비교 해보자.
2022.10.06 - [확률론과 수리통계] - 기하분포
비교하면, 음이항분포는 기하분포의 일반화라는 것을 쉽게 알 수 있다. 즉 다음이 성립한다:
$$
\mathrm{Geo}(p)=\mathrm{NB}(1,p)
$$
note: 이렇게 비교적 복잡한 분포를 어떤 간단한 분포의 일반화로서 이해하는 것은 아주 중요한 스킬이다.
이제 음이항분포가 무엇을 설명하고자 하는지 알았으니, 앞의 ${x-1 \choose r-1}$이 왜 등장하는지만 이해하면 될 것이다. 총 $x$회의 베르누이 시행이 끝났을 때, 성공을 $r$번 했으므로, 실패는 총 $(x-r)$번 했다. 그래서 우선 다음과 같은 확률의 계산식을 얻는다:
$$
p^{r}(1-p)^{x-r}
$$
이런 확률을 가진 사건이 여러개이다. 이항분포를 공부할 때 썼던 방법처럼, 총 $r$개의 성공을 $x$개의 자리에 배정해야 하므로 ${x \choose r}$개의 사건이 있다고 생각하기 쉽다. 그러나, 마지막 위치에 들어갈 것은 성공이라는 사건으로 정해져있다. 마지막에 $r$번째 성공을 거뒀기에 베르누이 시행을 그만둔 것이기 때문이다. 즉 다음과 같이 고쳐 쓰는 편이 정확하다:
$$
{\color{red}p} \cdot p^{r-1}(1-p)^{x-r}
$$
식에서 빨간색 $p$는 마지막 1번의 성공을 의미한다. 총 $x$번의 시도 중 성공 1회를 빼고 남은 $(x-1)$개의 자리에서 총 $r$번의 성공 중 마지막 성공 1회를 빼고 남은 $(r-1)$개의 성공이 들어갈 자리를 골라야 하고, 그 가짓 수는 ${x-1 \choose r-1}$이다. 그러면 음이항분포의 PMF를 다음과 같이 구할 수 있다.
$$
\begin{split}
f_X(x)&:=P(X=x)
\\
&={x-1 \choose r-1}p \cdot p^{r-1}(1-p)^{x-r}
\\
&={x-1 \choose r-1}p^{r}(1-p)^{x-r}
\end{split}
$$
음이항분포의 응용 역시 기하분포와 비슷하다. 목표 성공횟수를 $r$회로 정해놓고, 될 때까지 시도하는 것을 모델링하는데 사용된다. 기하분포는 $r=1$이라는 점에서 ‘특수한 음이항분포’라고 말할 수 있다.
결국 음‘이항’분포는 이름과 달리 이항분포보다 기하분포와 더 관련이 있다고 할 수 있다. 그런데 음이항분포는 과연 이항분포와는 아무런 관련이 없을까? 그렇지는 않다. 음이항분포가 이항분포의 확장버전은 아니지만, 같은 베르누이 시행에서 관점을 달리하여 탄생한다. 이항분포는 베르누이 시행횟수를 $n$으로 고정하고, 성공횟수가 얼마인지에 관심이 있다. 음이항분포는 베르누이 시행의 성공횟수를 $r$로 고정하고, 시행횟수가 얼마인지에 관심이 있다. 그리고 이항분포에서 $n=1$이면 베르누이 분포이고, 음이항분포에서 $r=1$이면 기하분포이다.