실제 응용에서 확률변수는 함수의 형태로 쓰이는 경우가 많다. 예를 들어 속력을 확률변수 $V$로 놓았을 때, 운동에너지 $K=\frac{1}{2}mV^{2}$은 $V$에 관한 함수이다. 이것은 확률변수 $V$에 변환 $T:t\mapsto\frac{1}{2}mt^{2}$를 적용한 것이라고 보아도 무방하다.
그런데 $V$의 분포를 이미 알고 있다면, 변환 $T$를 적용하여 얻은 $K$는 어떤 분포를 따르는지가 중요하다. 가령 $V\sim\mathrm{N}(\mu,\sigma^{2})$이라고 하면, $K\sim\mathrm{N}(\frac{1}{2}m\mu^{2},\frac{1}{2}m\sigma^{2})$인가? 확실하지 않다. 모수는 둘째치고, $K$가 정규분포를 따르는지의 여부도 장담할 수 없다.
이번 글에서는 위와 같은 문제를 해결하는 방법을 알아보자.
#1. 이산확률변수의 변환
먼저 이산확률변수의 변환을 보자. 이산확률변수의 변환문제는 비교적 간단하며 몇 가지만 주의하면 된다. 예를 들어 $X\sim\mathrm{Pois}(\lambda)$일 때, 그것의 선형변환 $Y=2X-1$의 분포를 구하는 문제를 생각해보자.
$$
P(Y=2x+1)=P(X=x)=\frac{e^{-\lambda}{\lambda^x}}{x!},x\in\lbrace0,1,2,\cdots\rbrace
$$
$P(Y=2x+1)$에 $x$를 순차적으로 대입하여 다음과 같은 결과를 얻는다. 표나 행렬은 이산확률분포를 표현하는 좋은 방법이다.
$$
Y\sim
\left[
{\begin{array}{}
-1&1&3&\cdots&2y-1&\cdots
\\
e^{-\lambda}&e^{-\lambda}\lambda&e^{-\lambda}\frac{\lambda^2}{2!}&\cdots&e^{-\lambda}\frac{\lambda^y}{y!}&\cdots
\end{array}}
\right]
$$
note: 이 방법 대신에 $f_Y(y)=P(Y=y)=P(X=\frac{y+1}{2})=\frac{e^{-\lambda}{\lambda^{\frac{y+1}{2}}}}{\frac{y+1}{2}!}$로 구하고 싶을 수도 있다. 그런데 이 경우 $\frac{y+1}{2}$이 음이 아닌 정수라는 것이 보장되지 않는다는 문제가 있다. 그래서 저렇게 간접적으로 구하고, 표 또는 행렬로 나타내는 편이 좋다.
또 다른 예시를 들어보자. 확률변수 $X$의 분포가 다음과 같다.
$$
X\sim
\left[
{\begin{array}{}
-1&0&1
\\
\frac{1}{3}&\frac{1}{3}&\frac{1}{3}
\end{array}}
\right]
$$
이때 $Y=X^2$의 분포를 구하면 다음과 같다.
$$
Y\sim
\left[
{\begin{array}{}
(-1)^2&0&1^2
\\
\frac{1}{3}&\frac{1}{3}&\frac{1}{3}
\end{array}}
\right]
=
\left[
{\begin{array}{}
0&1
\\
\frac{1}{3}&\frac{2}{3}
\end{array}}
\right]
$$
핵심은 $(-1)^2=1^2=1$이므로 합쳐서 나타내야 한다는 점이다.
#2. 연속확률변수의 변환
연속확률변수 $X$에 변환 $T$를 적용하여 새로운 연속확률변수 $Y=T(X)$로 변환할 때, 원래 있던 확률밀도는 어떻게 변화하는가? 즉, 이미 $f_X(x)$를 알고 있을 때 새로운 확률밀도 $f_Y(y)$는 어떻게 구할까?
본격적인 유도를 시작하기 전에, 미적분학에서 유용한 공식을 정리하고 넘어가자. 함수 $f$와 그것의 원시함수 $F$에 대해 다음이 성립한다.
$$
\int_{g(x)}^{h(x)}f(x)\space\mathrm{d}x=[F(x)]_{g(x)}^{h(x)}=F(h(x))-F(g(x))
$$
따라서 다음이 성립한다.
$$
\begin{split}
\frac{\mathrm{d}}{\mathrm{d}x}\left(\int_{g(x)}^{h(x)}f(x)\space\mathrm{d}x\right)&=F^\prime(h(x))h^\prime(x)-F^\prime(g(x))g^\prime(x)
\\
&=f(h(x))h^\prime(x)-f(g(x))g^\prime(x)
\end{split}
$$
만약 $g(x)$나 $h(x)$가 상수($a$)라면, 다음이 성립한다. $a\to\pm\infty$로 발산해도 마찬가지이다.
$$
\frac{\mathrm{d}}{\mathrm{d}x}\left(\int_{a}^{h(x)}f(x)\space\mathrm{d}x\right)=f(h(x))h^\prime(x)
\\
\frac{\mathrm{d}}{\mathrm{d}x}\left(\int_{g(x)}^{a}f(x)\space\mathrm{d}x\right)=-f(g(x))g^\prime(x)
$$
이제 이 결과를 토대로 새로운 확률밀도를 구하는 공식을 유도해보자. 먼저 누적분포함수를 다음과 같이 구하고, 확률밀도함수는 그것의 미분으로 구할 것이다. 이 방법은 자주 쓰이는 방법이므로 익혀두자. (여기서는 괄호가 너무 많아 헷갈리므로 소괄호 대신 대괄호를 썼다.)
$$
F_Y(y):=P[Y\le y]=P[T(X)\le T(T^{-1}(y))]
$$
부등식 $T(X)\le T(T^{-1}(y))$의 해는 $T$의 단조성에 따라 다르다. $T$가 단조증가이면
$$
\begin{split}
&F_Y(y)=P[X\le T^{-1}(y)]=\int_{-\infty}^{T^{-1}(y)}f_X(x)\space\mathrm{d}x,
\\
&f_Y(y)=\frac{\mathrm{d}}{\mathrm{d}y}F_Y(y)=f_X(T^{-1}(y))\frac{\mathrm{d}}{\mathrm{d}y}T^{-1}(y)
\end{split}
$$
반대로 $T$가 단조감소라면
$$
\begin{split}
&F_Y(y)=P[X\ge T^{-1}(y)]=\int_{T^{-1}(y)}^{\infty}f_X(x)\space\mathrm{d}x,
\\
&f_Y(y)=\frac{\mathrm{d}}{\mathrm{d}y}F_Y(y)=-f_X(T^{-1}(y))\frac{\mathrm{d}}{\mathrm{d}y}T^{-1}(y)
\end{split}
$$
이 두 결과를 절댓값 기호로 합치면 다음과 같은 변환공식을 얻는다. ($f_X$는 확률밀도이기 때문에 음수가 될 수 없으므로 절댓값 기호는 $T^{-1}$을 감싸야 한다.)
$$
f_Y(y)=f_X(T^{-1}(y))\left\vert\frac{\mathrm{d}}{\mathrm{d}y} T^{-1}(y)\right\vert
$$
이 공식은 $T$의 역함수 $T^{-1}$이 유일한 형태임을 전제로 하고 있다. 만약 $T_{i}^{-1}(i=1,2,\cdots,n)$와 같이 여러가지 형태라면 이 공식을 다음과 같이 바꾸면 될 것이다.
$$
f_Y(y)=\sum_{i=1}^{n} f_X(T_{i}^{-1}(y))\left\vert\frac{\mathrm{d}}{\mathrm{d}y} T_{i}^{-1}(y)\right\vert
$$
그리고 함수가 단조롭지 않아 역함수가 존재하지 않는 구간에서는 $f_Y(y)=0$을 취하면 될 것이다.
note: 확률밀도는 거의 어디서나(Almost Everywhere, a.e.; 几乎处处) 음이 아니면 된다. 측도론에서 어떤 명제가 거의 어디서나 성립한다는 것은 명제가 성립하지 않는 곳이 영집합 뿐이라는 것을 의미한다. 확률론에서는 거의 확실하게(Almost Surely, a.s.; 几乎必然)라는 용어를 쓰기도 한다. 추후 작성 예정.
#3. 예시
#3-1.
$Y=aX+b,a \not=0$의 확률밀도를 구해보자. 변환 $y=T(x)=ax+b$이므로 $x=T^{-1}(y)=\frac{y-b}{a}$이고, $\left\vert\frac{\mathrm{d}}{\mathrm{d}y} T^{-1}(y)\right\vert=\left\vert\frac{1}{a}\right\vert$이다. 따라서
$$
f_Y(y)=\left\vert\frac{1}{a}\right\vert f_{X}\left(\frac{y-b}{a}\right)
$$
#3-2.
$Y=kX^2,k>0$의 확률밀도를 구해보자. $Y=kX^2,k>0$은 음이 아니므로 $y<0$일 때 $f_Y(y)=0$이다. $Y>0$인 경우를 고려해보자. 변환 $y=T(x)=kx^2$이므로 $x=T^{-1}(y)=\pm\sqrt{y/k}$의 두 가지 형태이다. 한편, $\left\vert\frac{\mathrm{d}}{\mathrm{d}y} T_{i}^{-1}(y)\right\vert=1/(2\sqrt{ky})$이므로 $y=0$일 때도 $f_Y(y)=0$으로 정하자. 따라서
$$
f_Y(y)=
\begin{cases}
\frac{1}{2\sqrt{ky}}\left(f_X(\sqrt{y/k})+f_X(-\sqrt{y/k})\right),&y>0
\\
0,&y\le0
\end{cases}
$$
여기서 $k=1$, $X\sim\mathrm{N}(0,1^2)$이면 변환 후의 $Y\sim\Gamma(\frac{1}{2},\frac{1}{2})$임을 알 수 있다. 즉, 표준정규분포를 제곱한 것은 어떤 감마분포를 따른다. 그런데 $\Gamma(\frac{1}{2},\frac{1}{2})$은 자유도가 1인 카이제곱분포 $\chi^2(1)$과 같다. 따라서 표준정규분포를 제곱하면 자유도가 1인 카이제곱분포를 얻을 수 있다.