음이항분포는 주어진 $x$회의 이벤트가 발생할 때까지의 대기 시간을 모델링하는데
여기서 대기 시간을 어떻게 해석하는가에 따라 확률질량함수의 모습이 바뀐다.
- 첫번째 관점: 대기 시간 = 발생 시간 + 미발생 시간
- 두번째 관점: 대기 시간 = 미발생 시간
첫번째 관점
이벤트의 발생확률은 $\theta$이고, 총 $N=n$회의 관찰이 끝났을 때, 발생 $x$회, 미발생 $n-x$회가 있었다고 보는 관점.
확률질량함수:
$$ NegBin1(n;x,\theta)={n-1 \choose x-1}\theta^x(1-\theta)^{n-x},\quad n\in\lbrace x,x+1,x+2,\cdots\rbrace $$
!여기서 조합수 부분은 ${n-1 \choose n-x}$를 사용해도 좋음 (조합수의 성질).
기대치와 분산:
$$ E[N]=\frac{x}{\theta},\quad V[N]=\frac{x(1-\theta)}{\theta^2} $$
유도 과정
확률질량함수
총 $n$회의 관찰에 $x$회의 발생과 $n-x$회의 미발생을 배치하는데, 마지막 $1$자리는 발생으로 고정이고, 남은 $n-1$자리에 $x-1$회의 발생과 $n-x$회의 미발생을 배치.
$$ NegBin1(n;x,\theta)=\theta^1{n-1\choose x-1}\theta^{x-1}(1-\theta)^{n-x}={n-1\choose x-1}\theta^x(1-\theta)^{n-x} $$
한편, 최소 $x$회의 관찰이 필요하므로 서포트 ($n$의 범위)는
$$ n\in\lbrace x,x+1,x+2,\cdots\rbrace $$
기대치와 분산
먼저 발생 횟수가 $x=1$인 특수한 경우 $NegBin1(n;1,\theta)=\theta(1-\theta)^{n-1}$의 모멘트를 고려한다. (이것은 첫번째 관점의 기하분포라고 할 수 있음.)
다음 공식과 정의를 사용.
$$ \begin{split} &E[N]=\sum_{n}nP(N=n),\quad E[N^2]=\sum_{n}n^2P(N=n) \\ &V[N]=E[N^2]-E[N]^2 \end{split} $$
계산에 쓰일 기하급수의 변형 ($0<r<1$):
$$ \sum_{n=0}^\infty r^n=\frac{1}{1-r},\quad \sum_{n=1}^\infty nr^{n-1}=\frac{1}{(1-r)^2},\quad \sum_{n=1}^\infty n^2r^{n-1}=\frac{1+r}{(1-r)^3} $$
계산 과정:
$$ E[N]=\theta\sum_{n=1}^\infty n(1-\theta)^{n-1}=\theta\cdot\frac{1}{\theta^2}=\frac{1}{\theta} $$
$$ E[N^2]=\theta\sum_{n=1}^\infty n^2(1-\theta)^{n-1}=\theta\cdot\frac{2-\theta}{\theta^3}=\frac{2-\theta}{\theta^2} $$
$$ V[N]=E[N^2]-E[N]^2=\frac{1-\theta}{\theta^2} $$
각 관찰이 독립이므로 임의의 $x$회 발생 횟수에서 $x$개의 $E[N]$과 $V[N]$을 더할 수 있음, 즉 $x$를 곱해서 일반화된 $E[N],V[N]$을 얻는다.
두번째 관점 (위키피디아)
( https://en.wikipedia.org/wiki/Negative_binomial_distribution )
이벤트의 발생확률은 $\theta$이고, 총 $x+n$회의 관찰이 끝났을 때, 발생 $x$회, 미발생 $N=n$회가 있었다고 보는 관점. 즉, 이번에는 미발생 횟수가 관심 대상이다.
확률질량함수:
$$ NegBin2(n;x,\theta)={x+n-1 \choose n}\theta^x(1-\theta)^n,\quad n\in\lbrace 0,1,2,\cdots\rbrace $$
!여기서 조합수 부분은 ${x+n-1 \choose x-1}$를 사용해도 좋음 (조합수의 성질).
기대치와 분산:
$$ E[N]=\frac{x(1-\theta)}{\theta},\quad V[N]=\frac{x(1-\theta)}{\theta^2} $$
유도 과정
확률질량함수
총 $x+n$회의 관찰에 $x$회의 발생과 $n$회의 미발생을 배치하는데, 마지막 $1$자리는 발생으로 고정이고, 남은 $x+n-1$자리에 $x-1$회의 발생과 $n$회의 미발생을 배치.
$$ NegBin2(n;x,\theta)=\theta^1{x+n-1\choose x-1}\theta^{x-1}(1-\theta)^n={x+n-1\choose n}\theta^x(1-\theta)^n $$
한편, 관찰이 끝날 때까지 운이 매우 좋은 경우 $0$회의 미발생이 있고, 운이 매우 안좋은 경우 미발생 횟수는 무한으로 발산. 따라서 서포트 ($n$의 범위)는
$$ n\in\lbrace 0,1,2,\cdots\rbrace $$
기대치와 분산
먼저 발생 횟수가 $x=1$인 특수한 경우 $NegBin2(n;1,\theta)=\theta(1-\theta)^n$의 모멘트를 고려한다. (이것은 두번째 관점의 기하분포라고 할 수 있음.)
이번에도 다음 공식과 정의를 사용.
$$ \begin{split} &E[N]=\sum_{n}nP(N=n),\quad E[N^2]=\sum_{n}n^2P(N=n) \\ &V[N]=E[N^2]-E[N]^2 \end{split} $$
계산에 쓰일 기하급수의 변형 ($0<r<1$):
$$ \sum_{n=0}^\infty r^n=\frac{1}{1-r},\quad \sum_{n=0}^\infty nr^n=\frac{r}{(1-r)^2},\quad \sum_{n=0}^\infty n^2r^n=\frac{r(1+r)}{(1-r)^3} $$
계산 과정:
$$ E[N]=\theta\sum_{n=0}^\infty n(1-\theta)^n=\theta\cdot\frac{1-\theta}{\theta^2}=\frac{1-\theta}{\theta} $$
$$ E[N^2]=\theta\sum_{n=0}^\infty n^2(1-\theta)^n=\theta\cdot\frac{(1-\theta)(2-\theta)}{\theta^3}=\frac{(1-\theta)(2-\theta)}{\theta^2} $$
$$ V[N]=E[N^2]-E[N]^2=\frac{1-\theta}{\theta^2} $$
이번에도 마찬가지로 각 관찰이 독립이므로 임의의 $x$회 발생 횟수에서 $x$개의 $E[N]$과 $V[N]$을 더할 수 있음, 즉 $x$를 곱해서 일반화된 $E[N],V[N]$을 얻는다.
'Mathematics' 카테고리의 다른 글
몬티 홀 문제의 간단한 풀이 (직관 & 계산) (0) | 2025.03.06 |
---|---|
다항계수 (0) | 2025.03.05 |
이벤트 발생 횟수와 대기 시간의 확률 모델들 (이항분포, 음이항분포, 푸아송 분포, 얼랑 분포) (0) | 2025.02.22 |
Logistic Regression (0) | 2025.02.17 |
혼동행렬, 신호탐지이론, ROC 곡선 (0) | 2023.03.14 |