#1. 연속확률변수, 누적분포함수, 확률밀도함수
이산확률변수에 대해, 확률질량함수의 정의는 다음과 같았다.
2022.10.05 - [확률론과 수리통계] - 이산확률변수, 확률질량함수, 이산분포, 누적분포함수
$$
f_{X}(x):=P(X=x)
$$
그런데 연속확률변수(Continuous RV; 连续型随机变量)는 이런 정의를 쓸 수 없다. 선분 위에 점을 무작위로 하나 찍는다고 해보자. 선분 위의 점이 찍히는 위치를 확률변수 $X$로 두자. 그리고 이 선분이 $n$개의 점으로 이루어져 있다고 하자. 모든 관측값 $x$에 대해 $P(X=x)=\lim_{n \rightarrow \infty} \frac{1}{n}=0$이다. 선분은 무한개의 점으로 이루어져 있기 때문이다. 즉, 연속확률변수가 가질 수 있는 관측값은 무한히 많다.
그런데 이산확률변수도 값을 ‘무한히’ 많이 가질 수 있다. 기하분포를 생각해보자. 성공이 1번 나올때까지 1번이고, 2번이고, 임의의 $n$번이고 베르누이 시행을 반복한다. 그런데 정말정말 운이 없어서 계속 성공이 안 나온다면, $n$은 무한대로 발산한다. 그럼에도 각각의 $P(X=x)$가 0이 아니다.
둘의 차이는 무엇일까? 이를 설명하기 위해서 가산무한(countably infinite; 可数无限)이라는 개념을 도입하자. 가산무한이란, 셀 수 있는 무한을 의미한다. 기하분포의 관측값을 다시 생각해보면, 1, 2, 3, …으로 무한개이지만 하나하나 셀 수 있다. 그런데 상술한 선분위에 점의 위치를 묘사하는 연속확률변수의 관측값은 1, 2, 3, …처럼 셀 수 없다. 그러면 1, 1.1, 1.2, …으로 셀 수도 있을까? 물론 아니다. 1, 1.01, 1.02, …같이 세야할 수도 있기 때문이다. 그런데 이것도 옳은 방법이 아니다. 1, 1.001, 1.002, … 같이 세는 방법도 있다.
이처럼 연속확률변수의 관측값을 세는 방법에 대한 반론에 반론이 꼬리를 물고 이어질 것이고, 결국 영원히 셀 수 있는 옳은 방법을 제시할 수 없으니 ‘셀 수 없다’고 말하는 것이 타당하다. 셀 수 없는 무한을 비가산무한(uncountably infinite; 不可数无限)이라고 부르자.
이제 이산확률변수의 정의를 다시 쓰자. 원래는 관측값이 ‘뚝뚝 떨어진’ 확률변수를 이산확률변수라고 했는데, 이 ‘뚝뚝 떨어진’ 값이라는 것은 달리표현하면 확률변수가 유한개(finite; 有限)의 관측값 또는 가산무한개의 관측값을 가진다는 뜻이다. 연속확률변수는 비가산무한개의 관측값을 가진다.
note: 가산, 비가산무한을 보고 영어의 가산명사, 불가산명사를 떠올렸다면 그 느낌이 맞다. 물방울(drops)은 셀 수 있는 반면, 물(water)은 셀 수 없다.
이제 연속확률변수의 이미지가 어느정도 잡혔으니, 상기한 확률문제를 해결해보자. 확률함수가 모든 특정한 관측값 입력에 대해서 0이라는 값을 출력한다면, 어디에도 써먹을 수가 없다.
그러면 특정한 관측값이 아닌, 관측값의 범위를 입력하면 어떨까? $P(X=x)$대신, $P(x_1 \le X \le x_2)$를 쓰는 것이다. 과연 이때도 확률이 0인가? 그렇지 않다. 선분의 길이가 $L$이라고 하자. 그러면 다음이 성립한다:
$$
P(x_1 \le X \le x_2)=\frac{x_2 - x_1}{L}
$$
$P(X=x) \equiv 0$인 이유는 다름이 아닌 $x_1=x_2=x$여서 그런 것이었다. 이제 이 $P(x_1 \le X \le x_2)$을 함수화 하자. 그런데 변수가 $x_1$, $x_2$로 두 개이다. 그러면 이변수함수 $f_X(x_1,x_2)$로 표현해야 할까? 이는 계산을 매우 복잡하게 만드므로 좋지 않다. 최대한 변수의 개수를 줄이는 것이 추후 분석에 도움이 될 것이다. $P(x_1 \le X \le x_2)$를 다음과 같이 변형해보자.
$$
P(x_1 \le X \le x_2)=P(X \le x_2)-P(X < x_1)
$$
이 식을 이해하는 데는 다음과 같은 그림이 최고다.
그런데 $P(X=x_1)=0$이므로 다음과 같은 변형이 가능하다.
$$
\begin{split}
P(x_1 \le X \le x_2)
&=P(X \le x_2)-P(X < x_1)+P(X=x_1)
\\
&=P(X \le x_2)-P(X \le x_1)
\end{split}
$$
이렇게 되면 $X$가 구간 $\lbrack x_1, x_2 \rbrack$에 속할 확률을 $P(X \le x)$ 두 개의 차이의 형태로 나타내는 것이 가능해진다. 그런데 이산확률변수에서 $F_X(x):=P(X \le x)$를 누적분포함수(CDF)라고 했다. 이 개념을 그대로 연속확률변수에 가져다 쓰자. CDF는 확률변수의 분포를 나타내는 한 방법이라고 했다. 이제 연속확률변수도 분포를 나타낼 수 있게 되었다.
그런데 결국 원초적인 의미의 PMF $f_{X}(x):=P(X=x)$같은 표기법은 얻지 못했다. 어떻게 하면 $P(X=x)$를 나타낼 수 있을까?
이것은 연속적인것을 무한히 쪼개는 것과 같다. 우리는 이미 이와 비슷한 것을 해본적이 있다. 바로 미분이다. 그리고 무한히 쪼갠 것을 합치는 법도 배웠다. 적분이다. 미적분으로 이 문제를 해결해보자. 이산확률변수에서 다음 식이 성립했다.
$$
F_X(k):=P(X \le k)=\sum_{x=-\infty}^{k}f_X(x)
$$
그런데 연속확률변수에서 CDF는 무한히 많이 쪼개서 더하는 것이므로 리만적분을 활용해서 다음과 같이 나타내자.
$$
F_X(k):=P(X \le k)=\int_{-\infty}^{k}f_X(x)\space\mathrm{d}x
$$
이것이 연속확률변수의 CDF의 정의이고, 이 식을 만족하는 $f_X(x)$를 확률밀도함수(Probability Density Function, PDF; 概率密度函数)라고 한다.
note: 왜 확률‘밀도’함수라고 이름지었는지에 대해 고찰해보았다. 다음 글을 참고하자.
2022.10.02 - [확률론과 수리통계] - 확률밀도와 확률질량의 이해
식을 $k$에 대해 미분하자.
$$
\frac{\mathrm{d}}{\mathrm{d}k}F_X(k)
=\frac{\mathrm{d}}{\mathrm{d}k}\int_{-\infty}^{k}f_X(x)\space\mathrm{d}x
=f_X(k)\frac{\mathrm{d}}{\mathrm{d}k}k=f_X(k)
$$
즉, CDF는 PDF의 원시함수(Primitive Function; 原函数)이다. 이렇게 연속확률변수는 먼저 CDF를 정의하고, 그 다음에 그것의 도함수로서 PDF를 정의하는 편이 이해가 쉽다. 이제 연속확률변수에서도 $P(X=x)$와 비슷한 개념을 나타낼 수 있게 되었다. 흔히 $f_X(k)$를 두고 $X=k$일 ‘확률’이라고 표현하는데, 정확하게는 $X=k$일 ‘확률밀도’라고 표현해야 맞다.
#2. 불가능사건과 확률=0
연속확률변수의 정의를 통해, 확률이 0이라고 해서 반드시 불가능사건(Impossible Event; 不可能事件)은 아니라는 것을 알 수 있다. 연속확률변수 $X$에 대해 $P(X=x) \equiv0$이지만, $\lbrace X=x \rbrace$라는 사건은 존재한다. $x$라는 관측값이 존재하기 때문이다. 그런데 불가능사건 $\emptyset$의 확률은 반드시 0이다. 예를 들어 $X\sim\mathrm{Bin}(n,p)$일 때 $x \in \lbrace 0,1,\cdots,n \rbrace$이므로 $\lbrace X=-1 \rbrace$이라는 사건이 발생하는 것이 불가능하다. 지시함수 $\mathbf{1}_{\lbrace 0,1,\cdots,n \rbrace}(x)$가 PMF의 개형에 곱해짐으로써 PMF값이 0이된다.
즉, 확률이 0이라는 것은 불가능사건의 필요조건이지만 충분조건은 아니다. 확률이 0이라는 것은 발생가능성이 매우 작아서 그런 것일 수도 있고, 아예 발생하는 것이 불가능한 경우라서 그럴 수도 있다. 반면 불가능사건은 아예 발생 자체가 불가능하다.
그리고 $P(X=x) \equiv0$으로 인해 연속확률변수는 부등호에 등호가 포함되어도 좋고, 포함되지 않아도 좋다. $P(x_1 \le X \le x_2)
=P(x_1 < X \le x_2)
=P(x_1 \le X < x_2)
=P(x_1 < X < x_2)$라는 것이다. 결국 다 같은 의미로 통용된다.
#3. PDF가 만족해야할 특별한 조건
전체확률을 모두 더하면 1이여야 한다. 그러므로 다음 등식이 항상 성립해야한다.
$$
\int_{-\infty}^{\infty}f_X(x)\space\mathrm{d}x=1
$$
별 것 아닌 것처럼 보여도, 이 식은 어떤 PDF를 구축할 때 굉장히 중요한 역할을 한다. 만약 처음 보는 분포의 PDF가 앞에 $x$와 무관한, 매우 복잡한 형태의 상수를 달고 있으면, 그것은 전체 적분값을 1로 만드는 역할을 하는 상수로 보아도 좋다. 이를 두고 정규화상수(Normalizing Constant; 归一化常数)라고 한다. 대표적인 예시로, 베타분포가 있다.
2022.10.02 - [확률론과 수리통계] - 베타분포의 이해
note: 전체확률의 합이 1이라는 것을 달리표현하면 다음과 같다. 표본공간(Sample Space; 样本空间)을 $\Omega$라고 하면, $P(\Omega)=1$이다.
#4. 연속분포
연속확률변수의 관측값은 이산확률변수처럼 뚝뚝 떨어지는 것이 아닌, 부드럽게 이어지는 것이다. 따라서 PDF의 그래프도 뚝뚝 떨어진 점이나 막대가 아닌, 이어진 곡선의 형태가 된다.
연속확률변수의 PDF 그래프도 이산확률변수의 PMF 그래프처럼 관측값 $x$가 흩어진 모습을 나타낸다. 이산분포에 대응하여 이를 두고 연속분포(Continuous Distribution; 连续分布)라고 한다. 다음 그림은 그 유명한 표준정규분포의 그래프이다.