본문 바로가기

Mathematics

와이블 분포

728x90

확률밀도함수, 누적분포함수, 생존함수, 위험함수 복습

우리는 뭔가 좋지 않은 이벤트의 발생까지 버티는 시간 $T$에 관심이 있다. ($T>0$)

(예: 제품의 수명이 다할 때까지, 사고가 발생할 때까지, 고객이 이탈할 때까지 걸리는 시간)

$T$를 수명 (Lifetime)이라고 하자.

확률밀도함수

수명 $T$의 구체적인 값은 모르지만, $T$가 $t$ 근처의 값을 가지는 확률을 생각해볼 수 있다. 확률밀도함수 $f(t)$로 표현한다.

$$ f(t):=\lim_{\Delta t\to0}\frac{P(t< T\le t+\Delta t)}{\Delta t} $$

누적분포함수

또한 $T\le t$, 즉 수명이 특정 기준 $t$ 이하일 확률에 관심이 있다. 누적분포함수 $F(t)$로 표현한다.

$$ F(t):=P(T\le t) $$

생존함수

그리고 $T>t$, 즉 수명이 $t$라는 기준을 넘을 확률에도 관심이 있다. 생존함수 $S(t)$로 표현한다.

$$ S(t):=P(T>t) $$

위험함수

마지막으로, 지금까지 $t$라는 시간을 버텼을 때, 앞으로 매 시점에서 $\Delta t$를 못 넘기고 끝날 확률에도 관심이 있다. 위험함수 $h(t)$로 표현한다.

$$ h(t):=\lim_{\Delta t\to0}\frac{P(t< T\le t+\Delta t\vert T>t)}{\Delta t} $$

관계식 복습

관계식 1

확률밀도함수와 누적분포함수 사이에 다음 관계가 성립한다.

$$ F^{\prime}(t)=f(t) $$

증명:

$$ \begin{split} f(t)&:=\lim_{\Delta t\to0}\frac{P(t< T\le t+\Delta t)}{\Delta t}=\lim_{\Delta t\to0}\frac{P(T\le t+\Delta t)-P(T\le t)}{\Delta t} \\&=\lim_{\Delta t\to0}\frac{F(t+\Delta t)-F(t)}{\Delta t}=F^\prime(t) \end{split} $$

관계식 2

생존함수와 누적분포함수 사이에 다음 관계가 성립한다.

$$ S(t)=1-F(t) $$

증명: $1=P(T> t)+P(T\le t)=S(t)+F(t)$이기 때문이다.

관계식 3

확률밀도함수, 생존함수, 위험함수 사이에 다음 관계가 성립한다.

$$ f(t)=h(t)S(t) $$

증명:

$$ \begin{split} P(t< T\le t+\Delta t\vert T>t)=\frac{P(t< T\le t+\Delta t\text{ and }T>t)}{P(T>t)}=\frac{P(t< T\le t+\Delta t)}{S(t)} \end{split} $$

이므로

$$ \begin{split} h(t):=\lim_{\Delta t\to0}\frac{P(t< T\le t+\Delta t\vert T>t)}{\Delta t}=\lim_{\Delta t\to0}\frac{P(t< T\le t+\Delta t)}{\Delta tS(t)}=f(t)\cdot\frac{1}{S(t)} \end{split} $$

관계식 4

한편, 생존함수는 위험함수와 관련이 있다.

$$ S(t)=e^{-\int_0^t h(t)dt} $$

증명: 관계식 1과 2에 의해, $S(t)=1-F(t)$를 미분하면 $S^{\prime}(t)=-f(t)=-h(t)S(t)$이고 이 미분방정식을 초기조건 $S(0)=P(T>0)=1$을 이용하여 푼다.

위험함수와 확률분포

관계식 3과 4를 결합하여 다음 공식을 얻는다.

$$ f(t)=h(t)e^{-\int_0^t h(t)dt},\quad t>0 $$

즉, 수명 $T$의 확률분포는 위험함수를 어떻게 설정하는가에 의해 결정된다.

상수 위험함수와 지수분포

가장 기본적인 위험함수는 $h(t)=\lambda$와 같이 상수로 설정된다. 이때 $f(t)=\lambda e^{-\lambda t},\quad t>0$, 즉 지수분포를 얻을 수 있다. (우리는 지수분포의 위험함수가 상수, 즉 시간에 대해 불변인 이유가 푸아송 과정 덕분임을 알고 있다. 그리고 이 사실을 지수분포의 무기억성이라고 하는 것을 알고 있다.)

와이블 분포

이제 $h(t)=\lambda\cdot kt^{k-1}$와 같은 위험함수를 생각해보자.

  • $k>1$일 때 이 위험함수는 생존 시간 $t$의 증가함수이다. 생존 시간이 길어질 수록 위험도가 증가한다는 것을 의미하며, 제품의 노화를 모델링하는데 적합하다.
  • $k<1$일 때 이 위험함수는 생존 시간 $t$의 감소함수이다. 생존 시간이 길어질 수록 위험도가 감소한다는 것을 의미하며, 신입 사원, 고객의 이탈을 모델링하는데 적합하다.
  • $k=1$일 때 이 위험함수는 상수 $\lambda$이고, 지수분포로 퇴화한다. 생존 시간과 위험도가 관계가 없다고 설정하는 방식이다.

이때 수명 $T$의 확률밀도함수는 다음과 같이 정해진다.

$$ f(t;k,\lambda)=\lambda k t^{k-1}e^{-\lambda t^k},\quad t>0 $$

이 확률분포를 와이블 분포 (Weibull Distribution)라고 하며, 제품 수명 등을 분석할 때 자주 쓰이는 확률 모델이다. $k$는 와이블 분포의 모습을 결정하므로 형상 파라미터 (Shape Parameter), $\lambda$는 매 시점에서 푸아송 프로세스의 발생률이므로 발생률 파라미터 (Rate Parameter)라고 한다.

물론 $h(t)=\lambda\cdot t^k$로 단순하게 설정해도 비슷한 효과를 누릴 수 있다. 이 경우는 $k=0$이 분기점이 될 것이다. 그러나 적분 계산에서 $\frac{1}{k+1}t^{k+1}$와 같은 항을 얻기 때문에 공식이 매우 지저분할 것이다. 다시 말해 $kt^{k-1}$는 의도적으로 적분 친화적이게끔 설계된 형태이다.

참고: 와이블 분포의 여러 형태들

(1) 위험함수를 $h(t)=\lambda\cdot kt^{k-1}$와 같이 설정하는 방식에서는

$$ f(t;k,\lambda)=\lambda k t^{k-1}e^{-\lambda t^k},\quad t>0 $$

(2) $h(t)=\lambda^k\cdot kt^{k-1}$와 같이 설정하는 방식에서는

$$ f(t;k,\lambda)=(\lambda k)(\lambda t)^{k-1}e^{-(\lambda t)^k},\quad t>0 $$

(3) $h(t)=(1/\lambda)^k\cdot kt^{k-1}$와 같이 설정하는 방식에서는

$$ f(t;k,\lambda)=(\frac{k}{\lambda})(\frac{t}{\lambda})^{k-1}e^{-(t/\lambda)^k},\quad t>0 $$

모두 와이블 분포이며 파라미터의 정의 방식이 다를 뿐이다.

728x90