본문 바로가기

Mathematics

이벤트 발생 횟수와 대기 시간의 확률 모델들 (이항분포, 음이항분포, 푸아송 분포, 얼랑 분포)

728x90

이산 시간과 관련된 확률 모델

이산 시간 N의 관측치는 n{1,2,}처럼 셀 수 있는 무한이다.

흔히 [횟수]로 표현되고, 1회, 2회, …와 같이 셀 수 있다.

이산 시간에서 특정 이벤트는 θ라는 일정한 발생확률을 가진다고 가정한다 (θ(0,1)).

발생 횟수의 확률 모델

주어진 n회의 관찰에서 (n{1,2,}) 발생 횟수 X의 확률분포는 이항분포이다.

이항분포의 확률질량함수와 주요 모멘트:

Bin(x;n,θ):=(nx)θx(1θ)nx,x{0,1,2,,n}

E[X]=nθ,V[X]=nθ(θ1)

이항분포에서 특별히 n=1인 경우를 베르누이 분포라고 한다. 단 1회의 관찰에서 특정 이벤트의 발생 횟수를 논의하는 것으로, 이때 X0 (미발생)또는 1 (발생)의 값만을 가질 수 있다.

대기 시간의 확률 모델

반대로 목표 발생 횟수 x가 주어질 때 (x{1,2,}), 목표 달성까지의 대기 시간 N의 확률분포는 음이항분포이다.

음이항분포의 확률질량함수와 주요 모멘트:

NB(n;x,θ)=(n1x1)θx(1θ)nx,n{x,x+1,}

E[N]=xθ,V[N]=x(1θ)θ2

음이항분포에서 특별히 x=1인 경우를 기하분포라고 한다. 최초 1회의 발생의 관측까지 대기 시간을 표현하는 분포이다.

연속 시간과 관련된 확률 모델

연속 시간 T의 관측치는 t(0,)처럼 셀 수 없는 무한이다.

흔히 [초] 단위로 측정하지만 사실 이보다 더 미세한 단위도 가능하므로 사실상 셀 수 없다.

연속 시간에서 특정 이벤트는 λ라는 일정한 발생률을 가진다고 가정한다 (λ(0,)).

!발생률은 발생확률이 아니라, 단위 시간에서 발생빈도를 표현한다. 예를 들어 1초에 3회 발생한다고 가정하면 λ=3 회/초, 1년에 3회 발생한다고 가정하면 λ=3 회/년이다. 단위 시간의 정의 방법에 따라 해석이 달라진다.

발생 횟수의 확률 모델

주어진 t시간의 관찰에서 (t(0,+)) 발생 횟수 X의 확률분포는 푸아송 분포이다.

푸아송 분포의 확률질량함수와 주요 모멘트:

Pois(x;tλ):=etλ(tλ)xx!,x{0,1,2}

E[X]=tλ,V[X]=tλ

푸아송 분포에서 t=1인 특별한 경우라도 분포의 이름은 달라지지 않는다. 그 의미는 단위 시간내 발생 횟수의 분포이다.

대기 시간의 확률 모델

반대로 목표 발생 횟수 x가 주어질 때 (x{1,2,}), 목표 달성까지의 대기 시간 T의 확률분포는 얼랑 분포이다.

얼랑 분포의 확률밀도함수와 주요 모멘트:

Erl(t;x,λ)=λx(x1)!tx1eλt,t(0,)

E[T]=xλ,V[T]=xλ2

얼랑 분포에서 x=1인 특별한 경우를 지수분포라고 한다. 기하분포와 마찬가지로 최초 1회의 발생의 관측까지 대기 시간을 표현하는 분포이지만, 대기 시간이 연속이라는 차이점이 있다.

얼랑 분포에서 x의 범위를 (0,)와 같이 임의의 양의 실수로 확장한 경우 (x1)! 대신 Γ(x)를 사용하고, 이를 감마분포라고 한다. 감마분포에서 x>0을 Shape 파라미터, λ>0을 Rate 파라미터라고 한다.

확률분포 공식의 유도

이항분포

예를 들어 n=5를 가정하고 P(X=3)을 구해보자.

매 1회의 관찰에서 발생확률은 θ이다. 총 5회의 관찰에서 3회의 발생과 53회의 발생이 있고, 각 관찰에서 발생 여부는 독립적이므로 확률을 곱하여 θ3(1θ)32와 같은 확률을 생각할 수 있다.

여기서 추가로 총 5회의 관찰에서 정확히 언제 발생 했으며 발생하지 않았는지까지 고려한다.

이는 5개의 빈자리에 3개의 1 (발생)과 53개의 0 (미발생)을 배치하는 경우의 수를 따지는 문제로, 결과적으로 확률은 (53)θ3(1θ)53이 된다.

이를 일반화하면 P(X=x)=(nx)θx(1θ)nx가 된다.

음이항분포

이번에는 x=3을 가정하고 P(T=5)를 구해본다.

5회의 관찰에서 마지막 1회는 발생으로 고정이다. 그리고 남은 51회의 관찰에서 31회의 발생과 53회의 미발생을 배치하는 경우의 수를 따진다.

따라서 확률은 θ1(5131)θ31(1θ)53=(5131)θ3(1θ)53이다.

이를 일반화하면 P(N=n)=(n1x1)θx(1θ)nx가 된다.

푸아송 분포

주어진 t만큼의 연속 시간에서, P(X=3)을 구해보자. 이때, 관찰 횟수 N은 무한히 많다. 예를 들어 t가 1분일 때, 1초에 1회 관찰을 가정하면 60회, 0.1초에 1회의 관찰을 가정하면 600회, 0.001초에 1회의 관찰을 가정하면 6000회의 관찰이 필요하다. 연속 시간은 이보다 더 미세하게 분할할 수 있기 때문에 사실상 무한한 횟수의 관찰이 필요하다.

무한히 많은 관찰 횟수를 1분이라는 하나의 단위 시간으로 표현한다. 그리고 매 1회의 관찰에서 이벤트의 발생확률 θ를 논의하는 대신, 하나의 단위 시간에서 이벤트의 발생률 λ을 논의한다.

예를 들어 이벤트가 1분에 3회 발생한다면 간단히 λ=3이다. 1년에 3회 발생해도 λ=3이다. 책 한 권을 읽는 동안 3개의 오타가 발견되어도 λ=3이다.

따라서 P(X=x)=(nx)θx(1θ)nx에서 n,θ=λn를 가정하여 푸아송 분포를 얻는다.

P(X=x)=limn(nx)(λn)x(1λn)nx=limn(n(n1)[n(x1)]x!)(λxnx)(1λn)n(1λn)x=eλλxx!

이것은 연속 시간에서 하나의 단위를 가정한 경우이다. 주어진 t만큼의 연속 시간에서는 λtλ로 대체한다.

얼랑 분포

얼랑 분포의 누적확률분포 P(Tt)를 먼저 구하고, 그것을 미분하여 확률밀도함수를 구한다.

P(Tt)=1P(T>t)

여기서 P(T>t)는 다음과 같이 구한다. 단순하게 생각하면 x회 발생까지의 대기 시간이 t를 초과했다는 것은 t시간 동안 x회 미만의 발생을 의미한다. 그리고 X의 확률분포는 푸아송 분포이다.

P(T>t)=P(X<x)=r=0x1P(X=r)=etλr=0x1(tλ)rr!

이제 이것을 위 식에 대입하고 미분하여 얼랑 분포의 확률밀도함수를 구한다.

ddtP(Tt)=ddt(etλr=0x1(tλ)rr!)=etλ(r=0x1trλr+1r!r=0x1rtr1λrr!)=etλ(r=0x1trλr+1r!r=1x1tr1λr(r1)!)rr!=1(r1)![r0]=etλ(r=0x1trλr+1r!s=0x2tsλs+1s!)=etλtx1λx(x1)!

모멘트 공식의 유도

접근법

먼저 n=1, t=1, x=1과 같이 간단한 모델을 생각한다.

→ 이항분포 대신 베르누이 분포

→ 음이항분포 대신 기하분포

→ 일반적인 푸아송 분포 대신 단위 시간에서의 푸아송 분포

→ 얼랑 분포 대신 지수분포

기대치는 간단한 모델의 합을 이용하여 구하고, 이에 더해 각 관찰은 서로 독립이므로 분산도 합으로 구할 수 있다.

Bin(x;n,θ)=nBin(x;1,θ)

NB(n;x,θ)=xNB(n;1,θ)

Pois(x;tλ)=tPois(x;λ)

Erl(t;x,λ)=xErl(t;1,λ)

베르누이 분포, 이항분포의 기대치와 분산

베르누이 분포의 확률질량함수는 Bin(x;1,θ)=θx(1θ)1x,x{0,1}이고

E[X]=xxθx(1θ)1x=0(1θ)+1θ=θE[X2]=xx2θx(1θ)1x=02(1θ)+12θ=θV[X]=E[X2]E[X]2=θ(1θ)

이항분포는 여기에 관찰 시간 n만큼 곱해주면 된다.

기하분포, 음이항분포의 기대치와 분산

기하분포의 확률질량함수는 NB(n;1,θ)=θ(1θ)n1,n{1,2,}이고

E[N]=θn=1n(1θ)n1=θ1(1(1θ))2=1θE[N2]=θn=1n2(1θ)n1=θ1+(1θ)(1(1θ))3=2θθ2V[N]=E[N2]E[N]2=1θθ2

음이항분포는 여기에 목표 발생 횟수 x만큼 곱해주면 된다.

푸아송 분포의 기대치와 분산

단위 시간에서 푸아송 분포의 확률질량함수는 Pois(x;λ)=eλλxx!,x{0,1,2,}이고,

테일러 급수 x=0λxx!=eλ를 이용한다.

E[X]=eλx=0xλxx!=eλx=1xλxx!=λeλx=1λx1(x1)!=λeλeλ=λ

이제 E[X2]을 계산하는데 x2=x(x1)+x라는 트릭을 사용한다.

E[X2]=eλx=0x2λxx!=eλx=1x2λxx!=eλx=1x(x1)λxx!+eλx=1xλxx!=eλx=2x(x1)λxx!+λ=λ2eλx=2λx2(x2)!+λ=λ2+λ

따라서 V[X]=E[X2]E[X]2=λ이다.

임의의 t시간에서 푸아송 분포는 여기에 t를 곱해준다.

지수분포, 얼랑 분포의 기대치와 분산

지수분포의 확률밀도함수는 Erl(t;1,λ)=λeλt,t(0,)이고

E[T]=λ0teλtdt=λ1λ2=1λE[T2]=λ0t2eλtdt=λ2!λ3=2λ2V[T]=E[T2]E[T]=1λ2

얼랑 분포는 여기에 목표 발생 횟수 x만큼 곱해준다.

 

728x90

'Mathematics' 카테고리의 다른 글