확률밀도함수, 누적분포함수, 생존함수, 위험함수 복습
우리는 뭔가 좋지 않은 이벤트의 발생까지 버티는 시간 $T$에 관심이 있다. ($T>0$)
(예: 제품의 수명이 다할 때까지, 사고가 발생할 때까지, 고객이 이탈할 때까지 걸리는 시간)
$T$를 수명 (Lifetime)이라고 하자.
확률밀도함수
수명 $T$의 구체적인 값은 모르지만, $T$가 $t$ 근처의 값을 가지는 확률을 생각해볼 수 있다. 확률밀도함수 $f(t)$로 표현한다.
$$ f(t):=\lim_{\Delta t\to0}\frac{P(t< T\le t+\Delta t)}{\Delta t} $$
누적분포함수
또한 $T\le t$, 즉 수명이 특정 기준 $t$ 이하일 확률에 관심이 있다. 누적분포함수 $F(t)$로 표현한다.
$$ F(t):=P(T\le t) $$
생존함수
그리고 $T>t$, 즉 수명이 $t$라는 기준을 넘을 확률에도 관심이 있다. 생존함수 $S(t)$로 표현한다.
$$ S(t):=P(T>t) $$
위험함수
마지막으로, 지금까지 $t$라는 시간을 버텼을 때, 앞으로 매 시점에서 $\Delta t$를 못 넘기고 끝날 확률에도 관심이 있다. 위험함수 $h(t)$로 표현한다.
$$ h(t):=\lim_{\Delta t\to0}\frac{P(t< T\le t+\Delta t\vert T>t)}{\Delta t} $$
관계식 복습
관계식 1
확률밀도함수와 누적분포함수 사이에 다음 관계가 성립한다.
$$ F^{\prime}(t)=f(t) $$
증명:
$$ \begin{split} f(t)&:=\lim_{\Delta t\to0}\frac{P(t< T\le t+\Delta t)}{\Delta t}=\lim_{\Delta t\to0}\frac{P(T\le t+\Delta t)-P(T\le t)}{\Delta t} \\&=\lim_{\Delta t\to0}\frac{F(t+\Delta t)-F(t)}{\Delta t}=F^\prime(t) \end{split} $$
관계식 2
생존함수와 누적분포함수 사이에 다음 관계가 성립한다.
$$ S(t)=1-F(t) $$
증명: $1=P(T> t)+P(T\le t)=S(t)+F(t)$이기 때문이다.
관계식 3
확률밀도함수, 생존함수, 위험함수 사이에 다음 관계가 성립한다.
$$ f(t)=h(t)S(t) $$
증명:
$$ \begin{split} P(t< T\le t+\Delta t\vert T>t)=\frac{P(t< T\le t+\Delta t\text{ and }T>t)}{P(T>t)}=\frac{P(t< T\le t+\Delta t)}{S(t)} \end{split} $$
이므로
$$ \begin{split} h(t):=\lim_{\Delta t\to0}\frac{P(t< T\le t+\Delta t\vert T>t)}{\Delta t}=\lim_{\Delta t\to0}\frac{P(t< T\le t+\Delta t)}{\Delta tS(t)}=f(t)\cdot\frac{1}{S(t)} \end{split} $$
관계식 4
한편, 생존함수는 위험함수와 관련이 있다.
$$ S(t)=e^{-\int_0^t h(t)dt} $$
증명: 관계식 1과 2에 의해, $S(t)=1-F(t)$를 미분하면 $S^{\prime}(t)=-f(t)=-h(t)S(t)$이고 이 미분방정식을 초기조건 $S(0)=P(T>0)=1$을 이용하여 푼다.
위험함수와 확률분포
관계식 3과 4를 결합하여 다음 공식을 얻는다.
$$ f(t)=h(t)e^{-\int_0^t h(t)dt},\quad t>0 $$
즉, 수명 $T$의 확률분포는 위험함수를 어떻게 설정하는가에 의해 결정된다.
상수 위험함수와 지수분포
가장 기본적인 위험함수는 $h(t)=\lambda$와 같이 상수로 설정된다. 이때 $f(t)=\lambda e^{-\lambda t},\quad t>0$, 즉 지수분포를 얻을 수 있다. (우리는 지수분포의 위험함수가 상수, 즉 시간에 대해 불변인 이유가 푸아송 과정 덕분임을 알고 있다. 그리고 이 사실을 지수분포의 무기억성이라고 하는 것을 알고 있다.)
와이블 분포
이제 $h(t)=\lambda\cdot kt^{k-1}$와 같은 위험함수를 생각해보자.
- $k>1$일 때 이 위험함수는 생존 시간 $t$의 증가함수이다. 생존 시간이 길어질 수록 위험도가 증가한다는 것을 의미하며, 제품의 노화를 모델링하는데 적합하다.
- $k<1$일 때 이 위험함수는 생존 시간 $t$의 감소함수이다. 생존 시간이 길어질 수록 위험도가 감소한다는 것을 의미하며, 신입 사원, 고객의 이탈을 모델링하는데 적합하다.
- $k=1$일 때 이 위험함수는 상수 $\lambda$이고, 지수분포로 퇴화한다. 생존 시간과 위험도가 관계가 없다고 설정하는 방식이다.
이때 수명 $T$의 확률밀도함수는 다음과 같이 정해진다.
$$ f(t;k,\lambda)=\lambda k t^{k-1}e^{-\lambda t^k},\quad t>0 $$
이 확률분포를 와이블 분포 (Weibull Distribution)라고 하며, 제품 수명 등을 분석할 때 자주 쓰이는 확률 모델이다. $k$는 와이블 분포의 모습을 결정하므로 형상 파라미터 (Shape Parameter), $\lambda$는 매 시점에서 푸아송 프로세스의 발생률이므로 발생률 파라미터 (Rate Parameter)라고 한다.
물론 $h(t)=\lambda\cdot t^k$로 단순하게 설정해도 비슷한 효과를 누릴 수 있다. 이 경우는 $k=0$이 분기점이 될 것이다. 그러나 적분 계산에서 $\frac{1}{k+1}t^{k+1}$와 같은 항을 얻기 때문에 공식이 매우 지저분할 것이다. 다시 말해 $kt^{k-1}$는 의도적으로 적분 친화적이게끔 설계된 형태이다.
참고: 와이블 분포의 여러 형태들
(1) 위험함수를 $h(t)=\lambda\cdot kt^{k-1}$와 같이 설정하는 방식에서는
$$ f(t;k,\lambda)=\lambda k t^{k-1}e^{-\lambda t^k},\quad t>0 $$
(2) $h(t)=\lambda^k\cdot kt^{k-1}$와 같이 설정하는 방식에서는
$$ f(t;k,\lambda)=(\lambda k)(\lambda t)^{k-1}e^{-(\lambda t)^k},\quad t>0 $$
(3) $h(t)=(1/\lambda)^k\cdot kt^{k-1}$와 같이 설정하는 방식에서는
$$ f(t;k,\lambda)=(\frac{k}{\lambda})(\frac{t}{\lambda})^{k-1}e^{-(t/\lambda)^k},\quad t>0 $$
모두 와이블 분포이며 파라미터의 정의 방식이 다를 뿐이다.
'Mathematics' 카테고리의 다른 글
변분추론 (Variational Inference) (2) | 2025.03.14 |
---|---|
단순 선형회귀모델 (1): SSE 최소화 추정량과 모멘트 (0) | 2025.03.11 |
생존함수와 위험함수 (0) | 2025.03.08 |
기하분포의 무기억성, 도박사의 오류 (0) | 2025.03.07 |
몬티 홀 문제의 간단한 풀이 (직관 & 계산) (0) | 2025.03.06 |