본문 바로가기

확률론과 수리통계

확률변수의 최대, 최소의 분포

이번 글에서는 확률변수의 최대, 최소의 분포를 알아보자. 구체적으로 확률변수 $X$와 $Y$의 결합분포 $f_{X,Y}(x,y)$를 이미 알고 있을 때, 새로운 확률변수 $U=\max(X,Y)$와 $V=\min(X,Y)$의 분포 $f_{\max}(u)$와 $f_{\min}(v)$를 구하는 법을 알아볼 것이다.

#1. 이산확률변수의 최대, 최소

이산확률변수 $X$의 관측값이 $x_1<x_2<\cdots<x_m$이고 $Y$의 관측값이 $y_1<y_2<\cdots<y_n$일 때, $X$와 $Y$의 결합분포 $f(x,y)$는 다음과 같은 행렬 $\mathbf{P}_
{m\times n}=(p_{ij})_
{m\times n}$으로 나타낼 수 있다. 여기서 행렬 $\mathbf{P}_
{m\times n}$의 제$i$행 제$j$열의 성분 $p_{ij}:=P(X=x_i,Y=y_j)$이다.

$$
\mathbf{P}_
{m\times n}=\left[
\begin{array}{}
p_{11}&p_{12}&\dots&p_{1n}
\\
p_{21}&p_{22}&\dots&p_{2n}
\\
\vdots&\vdots&\ddots&\vdots
\\
p_{m1}&p_{m2}&\dots&p_{mn}
\end{array}
\right]
$$

이때, 새로운 확률변수 $U=\max(X,Y)$와 $V=\min(X,Y)$의 분포는 다음과 같이 사건을 분할하여 계산하는 방식으로 구한다.

$$
\begin{split}
&P(U=u)
=P(X=u, Y<u)+P(X<u,Y=u)+P(X=Y=u)
\\
&P(V=v)
=P(X=v, Y>v)+P(X>v,Y=v)+P(X=Y=v)
\end{split}
$$

이 방법들은 시각화하여 기억할 수 있다. $\mathbf{P}_
{4\times4}$, $\mathbf{P}_
{4\times3}$, $\mathbf{P}_
{3\times4}$일 때를 예로 들어보자.

e.g., $\mathbf{P}_
{4\times3}$에서 $P(U=x_4)=p_{41}+p_{42}+p_{43}$이다.

한편, 다음과 같은 결과를 이용하여 최대, 최소의 합 $W=\max(X,Y)+\min(X,Y)$의 분포를 구할 수도 있다.

$$
U=\max(X,Y)=\frac{1}{2}\left(X+Y+\vert X-Y \vert\right)
\\
\space
\\
V=\min(X,Y)=\frac{1}{2}\left(X+Y-\vert X-Y \vert\right)
\\
\space
\\
\therefore U+V=X+Y
$$

#2. 연속확률변수의 최대, 최소

서로 독립인 두 연속확률변수 $X$, $Y$를 가정하자. $U=\max(X,Y)$, $V=\min(X,Y)$의 분포는 다음과 같이 구한다.

$$
\begin{split}
F_{\max}(u)&=P(U\le u)
\\
&=P(X\le u,Y\le u)=P(X\le u)P(X\le u)=F_X(u)F_Y(u)
\\
\space
\\
F_{\min}(v)&=P(V\le v)=1-P(V>v)
\\
&=1-P(X>v,Y>v)=1-P(X>v)P(Y>v)
\\
&=1-(1-P(X\le v))(1-P(Y\le v))
\\
&=1-(1-F_X(v))(1-F_Y(v))
\end{split}
$$

이 결과는 $n$개의 서로 독립인 연속확률변수의 최대, 최소에도 일반화하여 적용할 수 있다. $U=\max(X_1,X_2,\cdots,X_n)$, $V=\min(X_1,X_2,\cdots,X_n)$일 때,

$$
\begin{split}
&F_{\max}(u)=\prod_{i=1}^{n}F_{X_i}(u)
\\
&F_{\min}(v)=1-\prod_{i=1}^{n}(1-F_{X_i}(v))
\end{split}
$$

만약 $X_i(i=1,2,\cdots,n)$이 같은 분포 $F_X(x)$를 따른다는 가정이 추가되면 이 공식들은 다음과 같이 간단해진다.

$$
\begin{split}
&F_{\max}(u)=[F_X(u)]^n
\\
&F_{\min}(v)=1-[1-F_{X}(v)]^n
\end{split}
$$

note: 이러한 조건을 두고 $X_i$가 ‘독립항등분포를 따른다’(Independent and Identically Distributed, i.i.d.; 独立同分布)라고 표현한다.

이 식을 미분하여 확률밀도도 구할 수 있다.

$$
\begin{split}
&f_{\max}(u)=\frac{\mathrm{d}}{\mathrm{d}u}[F_X(u)]^n=n[F_X(u)]^{n-1}f_X(u)
\\
&f_{\min}(v)=\frac{\mathrm{d}}{\mathrm{d}v}(1-[1-F_{X}(v)]^n)=n[1-F_X(v)]^{n-1}f_X(v)
\end{split}
$$

사건의 분할과 $X_i(i=1,2,\cdots,n)$가 i.i.d.임을 잘 이용하면 최대, 최소의 결합분포도 구할 수 있다.

$$
\begin{split}
F_{\max,\min}(u,v)&=P(\max X_i\le u,\min X_i\le v)
\\
&=P(\max X_i\le u)-P(\max X_i\le u,\min X_i>v)
\\
&=P(X_i\le u)-P(X_i\le u,X_i>v)
\\
&=
\begin{cases}
P(X_i\le u)-P(v<X_i\le u),&u>v
\\
P(X_i\le u),&u\le v
\end{cases}
\\
&=
\begin{cases}
[F_X(u)]^n-[F_X(u)-F_X(v)]^n,&u>v
\\
[F_X(u)]^n,&u\le v
\end{cases}
\end{split}
$$

#3. 응용

어떤 시스템 $S$는 두 개의 독립된 서브시스템 $S_1$, $S_2$로 구성되어 있다. 이 서브시스템들의 수명을 확률변수 $X$, $Y$로 놓고, $X\sim\mathrm{Exp}(\alpha)$, $Y\sim\mathrm{Exp}(\beta)$라고 가정하자. 이제 시스템 $S$의 수명 $Z=Z(X,Y)$의 분포를 구해보자.

note: $S_1$의 수명 $X\sim\mathrm{Exp}(\alpha)$라는 가정은 $S_1$이 단위시간 내 $\alpha$번 고장난다는 뜻임을 상기하자. (지수분포 참조.)

서로 독립인 두 서브시스템 $S_1$과 $S_2$로 시스템 $S$를 구성하는 방법은 다음과 같이 직렬, 병렬, 순차적 이용의 3가지를 생각해볼 수 있다.

(1) 직렬 시스템 $S$가 정상적으로 작동할 필요충분조건은 $S_1\land S_2$, 즉, 두 서브시스템이 모두 정상적으로 작동하는 것이다. $S_1$과 $S_2$ 중 어느 하나라도 수명이 다하면 $S$ 역시 수명이 다했다고 볼 수 있으므로 직렬 시스템의 수명은 $Z=\min(X,Y)$이다. 따라서 $Z$의 분포는 다음과 같이 구한다.

$$
F_Z(z)=1-(1-F_X(z))(1-F_Y(z))
$$

여기에 $F_X(x)=\left( 1-e^{-\alpha x} \right)\mathbf{1}_
{[0,\infty)}(x)$, $F_Y(y)=\left( 1-e^{-\beta y} \right)\mathbf{1}_
{[0,\infty)}(y)$를 대입하면

$$
F_Z(z)=[1-e^{-(\alpha+\beta)z}]\mathbf{1}_
{[0,\infty)}(z)
$$

즉 직렬 시스템의 수명 $Z\sim\mathrm{Exp}(\alpha+\beta)$이다.

(2) 병렬 시스템 $S$가 정상적으로 작동할 필요충분조건은 $S_1\lor S_2$, 즉, 두 서브시스템 중 최소 하나가 정상적으로 작동하는 것이다. $S_1$과 $S_2$ 모두 수명이 다했을 때 비로소 $S$가 수명이 다했다고 볼 수 있으므로 병렬 시스템의 수명은 $Z=\max(X,Y)$이다. 따라서 $Z$의 분포는 다음과 같이 구한다.

$$
F_Z(z)=F_X(z)F_Y(z)=(1-e^{-\alpha z})(1-e^{-\beta z})\mathbf{1}_
{[0,\infty)}(z)
$$

note: 최대, 최소를 $\max(a,b)$, $\min(a,b)$대신 $a\lor b$, $a\land b$와 같이 논리합, 논리곱 기호를 사용하여 표시하는 방법은 이 ‘수명 문제’와 관련지어 이해하면 되겠다.

(3) 직렬과 병렬 외에도, 서브시스템을 순차적으로 사용하는 방법도 고려해볼 수 있다. 예를 들어 $S_1$을 고장날 때까지 사용한 후, 이어서 $S_2$를 사용하는 것이다. 이 경우 시스템 $S$의 수명은 $Z=X+Y$으로, 두 서브시스템 수명의 단순 합이다. 이 경우는 지난 글에서 소개한 합성곱을 이용하여 다음과 같이 구한다.

$$
\begin{split}
z\ge 0,\space f_{Z}(z)&=\int_{-\infty}^{\infty}f_X(x)f_Y(z-x)\space dx
=\int_{0}^{z}\alpha e^{-\alpha x}\beta e^{-\beta (z-x)}\space dx
\\
&=\alpha\beta e^{-\beta z}\int_{0}^{z}e^{(\beta-\alpha)x}\space dx=\alpha\beta e^{-\beta z}\cdot\frac{e^{(\beta-\alpha)z}-1}{\beta-\alpha}
\\
&=\frac{\alpha\beta}{\beta-\alpha}(e^{-\alpha z}-e^{-\beta z})
\\[5ex]
z<0,\space f_{Z}(z)&=0
\\[5ex]
\therefore f_{Z}(z)&=\frac{\alpha\beta}{\beta-\alpha}(e^{-\alpha z}-e^{-\beta z})\mathbf{1}_
{[0,\infty)}(z)
\end{split}
$$

'확률론과 수리통계' 카테고리의 다른 글

Irwin-Hall 분포  (0) 2022.12.25
삼각분포  (0) 2022.12.12
확률변수의 사칙연산의 분포  (0) 2022.12.08
합성곱  (0) 2022.12.01
Box-Muller 변환  (0) 2022.11.30