본문 바로가기

Mathematics

음이항분포 (기하분포)의 2가지 관점

728x90

음이항분포는 주어진 $x$회의 이벤트가 발생할 때까지의 대기 시간을 모델링하는데

여기서 대기 시간을 어떻게 해석하는가에 따라 확률질량함수의 모습이 바뀐다.

  • 첫번째 관점: 대기 시간 = 발생 시간 + 미발생 시간
  • 두번째 관점: 대기 시간 = 미발생 시간

첫번째 관점

이벤트의 발생확률은 $\theta$이고, 총 $N=n$회의 관찰이 끝났을 때, 발생 $x$회, 미발생 $n-x$회가 있었다고 보는 관점.

확률질량함수:

$$ NegBin1(n;x,\theta)={n-1 \choose x-1}\theta^x(1-\theta)^{n-x},\quad n\in\lbrace x,x+1,x+2,\cdots\rbrace $$

!여기서 조합수 부분은 ${n-1 \choose n-x}$를 사용해도 좋음 (조합수의 성질).

기대치와 분산:

$$ E[N]=\frac{x}{\theta},\quad V[N]=\frac{x(1-\theta)}{\theta^2} $$

유도 과정

확률질량함수

총 $n$회의 관찰에 $x$회의 발생과 $n-x$회의 미발생을 배치하는데, 마지막 $1$자리는 발생으로 고정이고, 남은 $n-1$자리에 $x-1$회의 발생과 $n-x$회의 미발생을 배치.

$$ NegBin1(n;x,\theta)=\theta^1{n-1\choose x-1}\theta^{x-1}(1-\theta)^{n-x}={n-1\choose x-1}\theta^x(1-\theta)^{n-x} $$

한편, 최소 $x$회의 관찰이 필요하므로 서포트 ($n$의 범위)는

$$ n\in\lbrace x,x+1,x+2,\cdots\rbrace $$

기대치와 분산

먼저 발생 횟수가 $x=1$인 특수한 경우 $NegBin1(n;1,\theta)=\theta(1-\theta)^{n-1}$의 모멘트를 고려한다. (이것은 첫번째 관점의 기하분포라고 할 수 있음.)

다음 공식과 정의를 사용.

$$ \begin{split} &E[N]=\sum_{n}nP(N=n),\quad E[N^2]=\sum_{n}n^2P(N=n) \\ &V[N]=E[N^2]-E[N]^2 \end{split} $$

계산에 쓰일 기하급수의 변형 ($0<r<1$):

$$ \sum_{n=0}^\infty r^n=\frac{1}{1-r},\quad \sum_{n=1}^\infty nr^{n-1}=\frac{1}{(1-r)^2},\quad \sum_{n=1}^\infty n^2r^{n-1}=\frac{1+r}{(1-r)^3} $$

계산 과정:

$$ E[N]=\theta\sum_{n=1}^\infty n(1-\theta)^{n-1}=\theta\cdot\frac{1}{\theta^2}=\frac{1}{\theta} $$

$$ E[N^2]=\theta\sum_{n=1}^\infty n^2(1-\theta)^{n-1}=\theta\cdot\frac{2-\theta}{\theta^3}=\frac{2-\theta}{\theta^2} $$

$$ V[N]=E[N^2]-E[N]^2=\frac{1-\theta}{\theta^2} $$

각 관찰이 독립이므로 임의의 $x$회 발생 횟수에서 $x$개의 $E[N]$과 $V[N]$을 더할 수 있음, 즉 $x$를 곱해서 일반화된 $E[N],V[N]$을 얻는다.

두번째 관점 (위키피디아)

( https://en.wikipedia.org/wiki/Negative_binomial_distribution )

이벤트의 발생확률은 $\theta$이고, 총 $x+n$회의 관찰이 끝났을 때, 발생 $x$회, 미발생 $N=n$회가 있었다고 보는 관점. 즉, 이번에는 미발생 횟수가 관심 대상이다.

확률질량함수:

$$ NegBin2(n;x,\theta)={x+n-1 \choose n}\theta^x(1-\theta)^n,\quad n\in\lbrace 0,1,2,\cdots\rbrace $$

!여기서 조합수 부분은 ${x+n-1 \choose x-1}$를 사용해도 좋음 (조합수의 성질).

기대치와 분산:

$$ E[N]=\frac{x(1-\theta)}{\theta},\quad V[N]=\frac{x(1-\theta)}{\theta^2} $$

유도 과정

확률질량함수

총 $x+n$회의 관찰에 $x$회의 발생과 $n$회의 미발생을 배치하는데, 마지막 $1$자리는 발생으로 고정이고, 남은 $x+n-1$자리에 $x-1$회의 발생과 $n$회의 미발생을 배치.

$$ NegBin2(n;x,\theta)=\theta^1{x+n-1\choose x-1}\theta^{x-1}(1-\theta)^n={x+n-1\choose n}\theta^x(1-\theta)^n $$

한편, 관찰이 끝날 때까지 운이 매우 좋은 경우 $0$회의 미발생이 있고, 운이 매우 안좋은 경우 미발생 횟수는 무한으로 발산. 따라서 서포트 ($n$의 범위)는

$$ n\in\lbrace 0,1,2,\cdots\rbrace $$

기대치와 분산

먼저 발생 횟수가 $x=1$인 특수한 경우 $NegBin2(n;1,\theta)=\theta(1-\theta)^n$의 모멘트를 고려한다. (이것은 두번째 관점의 기하분포라고 할 수 있음.)

이번에도 다음 공식과 정의를 사용.

$$ \begin{split} &E[N]=\sum_{n}nP(N=n),\quad E[N^2]=\sum_{n}n^2P(N=n) \\ &V[N]=E[N^2]-E[N]^2 \end{split} $$

계산에 쓰일 기하급수의 변형 ($0<r<1$):

$$ \sum_{n=0}^\infty r^n=\frac{1}{1-r},\quad \sum_{n=0}^\infty nr^n=\frac{r}{(1-r)^2},\quad \sum_{n=0}^\infty n^2r^n=\frac{r(1+r)}{(1-r)^3} $$

계산 과정:

$$ E[N]=\theta\sum_{n=0}^\infty n(1-\theta)^n=\theta\cdot\frac{1-\theta}{\theta^2}=\frac{1-\theta}{\theta} $$

$$ E[N^2]=\theta\sum_{n=0}^\infty n^2(1-\theta)^n=\theta\cdot\frac{(1-\theta)(2-\theta)}{\theta^3}=\frac{(1-\theta)(2-\theta)}{\theta^2} $$

$$ V[N]=E[N^2]-E[N]^2=\frac{1-\theta}{\theta^2} $$

이번에도 마찬가지로 각 관찰이 독립이므로 임의의 $x$회 발생 횟수에서 $x$개의 $E[N]$과 $V[N]$을 더할 수 있음, 즉 $x$를 곱해서 일반화된 $E[N],V[N]$을 얻는다.

728x90