본문 바로가기

Mathematics

음이항분포 (기하분포)의 2가지 관점

728x90

음이항분포는 주어진 x회의 이벤트가 발생할 때까지의 대기 시간을 모델링하는데

여기서 대기 시간을 어떻게 해석하는가에 따라 확률질량함수의 모습이 바뀐다.

  • 첫번째 관점: 대기 시간 = 발생 시간 + 미발생 시간
  • 두번째 관점: 대기 시간 = 미발생 시간

첫번째 관점

이벤트의 발생확률은 θ이고, 총 N=n회의 관찰이 끝났을 때, 발생 x회, 미발생 nx회가 있었다고 보는 관점.

확률질량함수:

NegBin1(n;x,θ)=(n1x1)θx(1θ)nx,n{x,x+1,x+2,}

!여기서 조합수 부분은 (n1nx)를 사용해도 좋음 (조합수의 성질).

기대치와 분산:

E[N]=xθ,V[N]=x(1θ)θ2

유도 과정

확률질량함수

n회의 관찰에 x회의 발생과 nx회의 미발생을 배치하는데, 마지막 1자리는 발생으로 고정이고, 남은 n1자리에 x1회의 발생과 nx회의 미발생을 배치.

NegBin1(n;x,θ)=θ1(n1x1)θx1(1θ)nx=(n1x1)θx(1θ)nx

한편, 최소 x회의 관찰이 필요하므로 서포트 (n의 범위)는

n{x,x+1,x+2,}

기대치와 분산

먼저 발생 횟수가 x=1인 특수한 경우 NegBin1(n;1,θ)=θ(1θ)n1의 모멘트를 고려한다. (이것은 첫번째 관점의 기하분포라고 할 수 있음.)

다음 공식과 정의를 사용.

E[N]=nnP(N=n),E[N2]=nn2P(N=n)V[N]=E[N2]E[N]2

계산에 쓰일 기하급수의 변형 (0<r<1):

n=0rn=11r,n=1nrn1=1(1r)2,n=1n2rn1=1+r(1r)3

계산 과정:

E[N]=θn=1n(1θ)n1=θ1θ2=1θ

E[N2]=θn=1n2(1θ)n1=θ2θθ3=2θθ2

V[N]=E[N2]E[N]2=1θθ2

각 관찰이 독립이므로 임의의 x회 발생 횟수에서 x개의 E[N]V[N]을 더할 수 있음, 즉 x를 곱해서 일반화된 E[N],V[N]을 얻는다.

두번째 관점 (위키피디아)

( https://en.wikipedia.org/wiki/Negative_binomial_distribution )

이벤트의 발생확률은 θ이고, 총 x+n회의 관찰이 끝났을 때, 발생 x회, 미발생 N=n회가 있었다고 보는 관점. 즉, 이번에는 미발생 횟수가 관심 대상이다.

확률질량함수:

NegBin2(n;x,θ)=(x+n1n)θx(1θ)n,n{0,1,2,}

!여기서 조합수 부분은 (x+n1x1)를 사용해도 좋음 (조합수의 성질).

기대치와 분산:

E[N]=x(1θ)θ,V[N]=x(1θ)θ2

유도 과정

확률질량함수

x+n회의 관찰에 x회의 발생과 n회의 미발생을 배치하는데, 마지막 1자리는 발생으로 고정이고, 남은 x+n1자리에 x1회의 발생과 n회의 미발생을 배치.

NegBin2(n;x,θ)=θ1(x+n1x1)θx1(1θ)n=(x+n1n)θx(1θ)n

한편, 관찰이 끝날 때까지 운이 매우 좋은 경우 0회의 미발생이 있고, 운이 매우 안좋은 경우 미발생 횟수는 무한으로 발산. 따라서 서포트 (n의 범위)는

n{0,1,2,}

기대치와 분산

먼저 발생 횟수가 x=1인 특수한 경우 NegBin2(n;1,θ)=θ(1θ)n의 모멘트를 고려한다. (이것은 두번째 관점의 기하분포라고 할 수 있음.)

이번에도 다음 공식과 정의를 사용.

E[N]=nnP(N=n),E[N2]=nn2P(N=n)V[N]=E[N2]E[N]2

계산에 쓰일 기하급수의 변형 (0<r<1):

n=0rn=11r,n=0nrn=r(1r)2,n=0n2rn=r(1+r)(1r)3

계산 과정:

E[N]=θn=0n(1θ)n=θ1θθ2=1θθ

E[N2]=θn=0n2(1θ)n=θ(1θ)(2θ)θ3=(1θ)(2θ)θ2

V[N]=E[N2]E[N]2=1θθ2

이번에도 마찬가지로 각 관찰이 독립이므로 임의의 x회 발생 횟수에서 x개의 E[N]V[N]을 더할 수 있음, 즉 x를 곱해서 일반화된 E[N],V[N]을 얻는다.

728x90