본문 바로가기

Mathematics

생존함수와 위험함수

728x90

정의

특정 이벤트 (주로 사망, 사고 발생, 고장 등 좋지 않은)가 지금까지 단 한번도 발생하지 않고 $t$시간이 흘렀다고 하자. 이벤트 발생 전까지의 대기 시간을 $T$라고 설정하면, 이와 같은 일이 일어날 확률은

$$ S(t):=P(T>t) $$

로 나타낼 수 있다. $S(t)$를 생존함수 (Survival Function)라고 한다.

이제 관심 사항은 $t$시간 동안 이벤트가 발생하지 않고 버텼을 때, 그 다음부터 $\Delta t$라는 추가 시간을 넘기지 못할 확률이 모든 시점에서 얼마나 되는가이다. 이 확률은

$$ h(t):=\lim_{\Delta t\to0}\frac{P(t< T \le t+\Delta t\vert T>t)}{\Delta t} $$

로 나타낼 수 있다. $h(t)$를 위험함수 (Hazard Function)라고 한다.

관계식 1

랜덤변수 $T$의 확률밀도함수 $f(t)$, 생존함수 $S(t)$, 위험함수 $h(t)$ 사이에 다음 관계식이 성립한다.

$$ h(t)=\frac{f(t)}{S(t)} $$

증명:

$$ f(t)=\lim_{\Delta t\to0}\frac{P(t<T\le t+\Delta t)}{\Delta t},\quad h(t)=\lim_{\Delta t\to0}\frac{P(t< T \le t+\Delta t\vert T>t)}{\Delta t} $$

$$ \begin{split} P(t< T \le t+\Delta t\vert T>t)=\frac{P(t< T \le t+\Delta t \text{ and } T>t)}{P(T>t)}=\frac{P(t< T \le t+\Delta t)}{S(t)} \end{split} $$

따라서 $\frac{1}{S(t)}\cdot f(t)=h(t)$가 성립.

관계식 2

랜덤변수 $T$의 생존함수 $S(t)$는 위험함수 $h(t)$를 사용하여 표현할 수 있다.

$$ S(t)=e^{-\int_0^t h(t)dt} $$

증명: 누적분포함수 $F(t)$와 생존함수 $S(t)$는 $S(t)=1-F(t)$를 만족한다. 양변을 $t$로 미분하면

$$ S^{\prime}(t)=-f(t)=-h(t)S(t) $$

초기조건이 $S(0)=P(T>0)=1$이므로, 방정식의 해 $S(t)=e^{-\int_0^t h(t)dt}$를 얻을 수 있다.

상수 위험함수

지수분포

위험함수가 다음과 같이 고정된 상수라는 것은 무슨 의미인가?

$$ h(t)=\lambda,\quad\lambda>0 $$

이때 생존함수는 $S(t)=e^{-\lambda t}$이고 (관계식 2에 의해), 누적분포함수는 $F(t)=1-e^{-\lambda t}$, 확률밀도함수는 $f(t)=\lambda e^{-\lambda t}$이다. 즉, 생존 시간 $T$는 파라미터가 $\lambda$인 지수분포 (Exponential Distribution)를 따른다.

랜덤변수 $T$의 위험함수가 상수 $\lambda$ $\implies$ $T$의 확률분포가 $Exp(\lambda)$

반대로, $T\sim Exp(\lambda)$일 때 위험함수를 구해보면 상수 $\lambda$이다.

$$ h(t)=\frac{f(t)}{S(t)}=\frac{\lambda e^{-\lambda t}}{e^{-\lambda t}}=\lambda $$

랜덤변수 $T$의 위험함수가 상수 $\lambda$ $\Longleftarrow$ $T$의 확률분포가 $Exp(\lambda)$

즉, 상수 위험함수는 지수분포의 필요충분조건이다. 지수분포만의 고유 특성 (정체성)이라는 것이다.

푸아송 과정

그렇다면 왜 지수분포의 위험함수는 $\lambda$로 일정한가?

지수분포가 푸아송 과정 (Poisson Process)에서 유도되기 때문이다. 푸아송 과정은 매 시점에서 발생률이 $\lambda$로 일정하다고 가정한다. 주어진 $t$시간 내 이벤트 발생 횟수 $X$의 확률분포는 $Pois(\lambda t)$이고, 바로 여기서 지수분포의 누적분포함수가 유도된다.

$$ P(T\le t)=1-P(T>t)=1-P(X=0)=1-e^{-\lambda t}\frac{(\lambda t)^0}{0!}=1-e^{-\lambda t} $$

무기억성

위험함수의 정의를 다시 보자.

$$ h(t):=\lim_{\Delta t\to0}\frac{P(t< T \le t+\Delta t\vert T>t)}{\Delta t} $$

우리는 $t$시간 동안 이벤트가 발생하지 않고 버텼을 때, 그 다음부터 $\Delta t$라는 추가 시간을 넘기지 못하는 확률에 관심이 있다. 그것이 위험함수이다.

당연히, 상식적으로, 직관적으로, 이미 버틴 $t$라는 시간은 추가로 더 버티는 시간에 반영되어야 한다. 그래서 위험함수는 $t$에 관한 함수 $h(t)$로 나타내는 것이다.

(일반적으로 기계는 사용 시간이 길어질 수록 고장률이 높아지므로 $h(t)$는 $t$의 증가함수여야 한다. 사람이 질병에 걸릴 확률도 마찬가지이다. )

하지만, $h(t)=\lambda$와 같이 이미 버틴 시간 $t$를 전혀 기억하지 않는, 무기억성을 가진 경우가 있다. 그것이 바로 지수분포임을 앞서 보았고, 지수분포가 무기억성 (Memorylessness)을 가진다는 사실을 확인했다.

우리는 기하분포에서 무기억성이 독립시행 덕분임을 알고 있다. 기하분포는 이벤트 관측까지의 모든 시행은 독립이고, 각 시행에서 이벤트 관측 확률은 $p$로 일정하다고 가정한다. 이렇게 발생확률이 일정한 경우, 특히 홀짝게임 같은 단순 도박에서, 지금까지 이벤트가 전혀 일어나지 않았다고 해서 다음에는 이벤트 관측 확률을 높게 생각하는 것이 도박사의 오류임을 안다.

지수분포에서 무기억성도 이와 비슷하다. 매 시점에서 이벤트 발생률은 $\lambda$로 일정하다. 그러므로 이미 지난 시간은 다음 시점의 발생률에 어떤 영향도 없다. 이런 모델링이 말이 되는지 안되는지는 상황에 따라 다를 것이다. 그러나 적어도 기계의 고장 이벤트를 모델링하기에는 적합하지 않다는 것이 확실하다.

728x90