본문 바로가기

확률론과 수리통계

확률공간

측도공간 $(X,\Sigma,\mu)$에서 전체집합 $X$를 표본공간 $\Omega$, 시그마대수 $\Sigma$를 보렐 필드 $\mathcal{F}$, 측도 $\mu$를 확률측도 $P$로 대체하면 확률공간(Probability Space; 概率空间) $(\Omega,\mathcal{F},P)$를 얻는다. $P(\Omega)=1$이라고 정하므로 확률공간은 전체집합의 측도가 1인 측도공간이다. 즉, 확률공간은 특수한 측도공간이고, 측도공간은 확률공간의 일반화라고 생각하면 된다.

이제 확률공간을 통해 확률론의 기초개념들을 다시 정의해보자.

#1. 표본공간

측도공간에서 $X$를 $\Omega$로 대체한 것이 표본공간(Sample Space; 样本空间)이다. 표본공간은 결과를 예측할 수 없는 확률시행(Random Trial; 随机试验), 즉 랜덤한 사건의 모든 결과(Outcome; 结果) $\omega$를 원소로 갖는 집합이다. 결과는 표본점(Sample Point; 样本点)이라고도 한다.

예를 들어, 1회의 베르누이 시행의 표본공간은 다음과 같다.

$$
\Omega=\lbrace 1,0 \rbrace
$$

2회의 베르누이 시행은 어떨까? 나올 수 있는 결과는 ‘성공 2회’, ‘성공 1회, 실패 1회’, ‘실패 2회’, ‘실패 1회, 성공 1회’이므로 표본공간은 다음과 같다.

$$
\Omega^2=\lbrace(1,1),(1,0),(0,0),(0,1)\rbrace
$$

이런 방식으로 $n$회의 베르누이 시행도 생각해 볼 수 있다.

#2. 보렐 필드(보렐-시그마 대수)

측도론에서 시그마대수를 정의했고, 그 덕분에 집합의 크기를 측정할 수 있게 되었다. 확률론에서 다루는 집합은 대부분 $\mathbb{R}$또는 그것의 부분집합이다. 이것들의 크기도 측정할 수 있을까?. 그런데 $\mathbb{R}$ 위의 시그마대수를 생각하려니 $\mathcal{P}(\mathbb{R})$을 생각하기가 어렵다.

$X=\lbrace 1,2,3 \rbrace$같이 유한개의 원소를 가지는 집합의 멱집합은 생각하기 쉽다. 그런데 $Y=\lbrace 1,2,3,\cdots \rbrace$처럼 가산무한개의 원소를 가지거나 $Z=\lbrace x \in \mathbb{R} \mid 0 \le x \le 1 \rbrace$처럼 비가산무한개의 원소를 가지는 집합의 멱집합은 생각하기 어렵다.

이 문제를 어떻게 해결하면 좋을까? 우리는 측도론을 확률론에 써먹을 것이므로, 측도공간을 확률공간으로 개조해야 한다. 확률론을 기술하려면 $\mathbb{R}$은 물론 $\mathbb{R}$의 부분집합인 각종 개구간, 폐구간, 반개구간, 그리고 $\left( 0,1 \right] \cup \left[ 2,3 \right]$같은 서로소인 구간도 다뤄야 한다. 이것들을 모두 측정이 가능하도록 시그마대수에 포함시키는 방법을 찾아서 시그마대수를 확률론에서 잘 작동하도록 개조해야 한다.

결국 각종 구간을 포함하면서, 각종 연산에 대해 닫혀있는 그런 구조를 추가해야 한다. 그것은 바로 위상이다. 위상과 위상공간을 이용하면 우리가 원하는 시그마대수를 얻을 수 있다. 위상공간의 정의는 다음과 같다.

$\space$


집합 $X$의 부분집합의 모임 $\tau$를 생각하자. 다음을 만족하는 $\tau$를 $X$ 위의 위상(Topology; 拓扑)이라고 하고, $(X, \tau)$를 위상공간(Topological Space; 拓扑空间)이라고 한다. $\tau$의 원소를 열린 집합(Open Set; 开集)이라고 한다.

(1) $\emptyset \in \tau$, $X \in \tau$

(2) $\tau$는 임의의 합집합에 대해 닫혀있다.

(3) $\tau$는 유한개의 교집합에 대해 닫혀있다.


$\space$

위상공간은 임의의 집합에 위상이라는 구조를 추가한 집합이다. 구조를 보면 우리가 원하는 시그마대수의 성질을 가지고 있다. 공집합과 $X$자기 자신을 포함하며, 합집합과 교집합연산에 대해 닫혀있다.

이 위상공간에 시그마대수를 추가하면 완벽한 모양새가 나올 것 같다. 바로 보렐-시그마 대수이다. 정의는 다음과 같다.

$\space$


위상공간 $(X, \tau)$ 위의 보렐-시그마 대수(Borel-$\sigma$ Algebra; 博雷尔-$\sigma$代数) $\mathcal{B}$는 위상 $\tau$에 의해 생성된 시그마 대수이다. 보렐-시그마 대수 $\mathcal{B}$의 원소를 보렐 집합(Borel Set; 博雷尔集)이라고 한다. 확률론에서는 흔히 보렐-시그마 대수를 줄여서 보렐 필드(Borel Field; 博雷尔事件域)라고 하며, $\mathcal{F}$로 나타낸다.


$\space$

note1: 이 글에서 위상공간의 정의는 열린 집합에 기초한 정의이다. 닫힌 집합은 열린 집합의 여집합으로 정의된다. 물론 닫힌 집합에서 출발하여 위상공간을 정의할 수도 있다. 즉 둘 중 어느 하나를 출발점으로 삼아도 결국은 원하는 것을 모두 포함시킬 수 있다는 것이다.

note2: 위상공간은 시그마대수와 비슷하지만, 전혀 다른 맥락에서 발명되었다. 정의를 보면 알겠지만 위상공간은 열린 집합과 그것의 연산으로 이루어진 간단한 구조이며, 측정에는 관심이 없다. 위상수학은 이렇게 측도를 뒤로 한 채, 두 객체의 상대적인 위치를 연구하는 학문이다. 확률론에서는 잠시 위상공간을 빌려왔다고 생각하자.

note3: 보렐-시그마 대수, 보렐 필드라는 이름은 프랑스 수학자 에밀 보렐(Emile Borel)의 이름을 따왔다.

$\space$

여기서 잠시 ‘생성된 시그마 대수’에 대해 알아보자. 어떤 집합 $X$의 멱집합 $\mathcal{P}(X)$를 생각하자. $\mathcal{P}(X)$의 부분집합 $S$는 조건(1), (2), (3)을 만족하여 집합 $X$ 위의 시그마 대수일 수도 있고, 만족하지 못해서 시그마 대수가 아닐 수도 있다. 그런데 $S$를 포함하는 가장 작은 시그마 대수는 반드시 존재하며, 유일할 것이다. 이렇게 $S$를 포함하는 시그마 대수를 $S$에 의해 생성(Generated; 生成)된 시그마 대수라고 하고, $\sigma(S)$와 같이 나타낸다.

이해를 돕기 위해, 이전 글의 ‘골라담기’ 예시를 다시 생각해보자. $X=\lbrace 1,2,3 \rbrace$이었고, 멱집합 $\mathcal{P}(X)$는 다음과 같았다.

$$
\mathcal{P}(X)=\lbrace\emptyset, \lbrace 1\rbrace,\lbrace 2\rbrace,\lbrace 3\rbrace,\lbrace 1,2\rbrace,\lbrace 1,3\rbrace,\lbrace 2,3\rbrace ,X \rbrace
$$

이것의 부분집합 $S$로 시그마대수를 만드려고 했다. $S$의 원소로서 $\lbrace 1 \rbrace$만을 선택해서 골라 담았더니, $S$는 시그마 대수가 아니었다. 어떤 시그마 대수가 $\lbrace 1 \rbrace$을 원소로 가지려면, 자동으로 다음과 같은 형태를 가져야 했다.

$$
\lbrace\emptyset, \lbrace 1\rbrace, \lbrace 2,3\rbrace ,X \rbrace
$$

즉 $S=\lbrace\lbrace 1 \rbrace\rbrace$을 택했을때, 가장 작은 시그마대수가 되도록 필수적인 집합만 골라담았더니 이와 같은 형태가 되었다. $\sigma(\lbrace\lbrace 1 \rbrace\rbrace)=\lbrace\emptyset, \lbrace 1\rbrace, \lbrace 2,3\rbrace ,X \rbrace$이라는 것이다. 이 $\sigma(\lbrace\lbrace 1 \rbrace\rbrace)$은 $S=\lbrace\lbrace 1 \rbrace\rbrace$를 포함하는 가장 작은 시그마대수이다. 그리고 $\sigma(\lbrace\lbrace 1 \rbrace\rbrace)$외에 $S=\lbrace\lbrace 1 \rbrace\rbrace$를 포함하는 가장 작은 시그마대수의 다른 형태는 생각할 수 없다. 즉 이 형태는 유일하다.

note: ‘$S$를 포함하는 가장 작은 시그마 대수’라는 말에서, ‘포함’이라는 것은 $S$와 시그마대수의 집합으로서의 포함관계라는 것을 주의하자. $S$를 원소로 갖는다는 것이 아니다.

이제 ‘생성된’이라는 말의 함의를 알게 되었다. 즉, 필수불가결한 것만 남기고 나머지는 담지 않은 그런 의미를 갖고 있다. 이렇게 생성된 시그마대수를 이용하면 그 형태가 유일하다는 장점도 생긴다.

위상공간 $(X, \tau)$ 위의 보렐 필드는 위상 $\tau$에 의해 생성된 시그마 대수이다. 그리고 위상 $\tau$는 모든 열린 집합을 원소로 가지는 집합이며, 합집합과 교집합에 대해 닫혀있다. 그렇다면 $(\mathbb{R}, \tau)$의 보렐 필드는 어떨까? $\mathbb{R}$, $\emptyset$은 물론이고 우리가 원하던 각종 열린구간과 닫힌구간, 그리고 그것들의 합집합, 교집합, 여집합까지 다 갖고 있다. 우리가 상상할 수 있는, 그리고 확률론 기술에 필요한 각종 구간의 형태를 다 포함하고 있으면서도 필요 없는 것은 포함하지 않을 것이다.

시그마대수를 확률론에서 써먹을 수 있도록 보렐 필드로 개조했으니, 일반적인 시그마대수에서의 측도, 가측공간, 가측집합 등의 개념은 앞에 보렐을 붙여서 보렐 측도, 보렐 가측공간, 보렐 집합이라고 부르자.

#3. 사건(보렐집합)

측도론에서, $X$ 위의 시그마대수 $\Sigma$의 원소인 $M$을 $X$의 가측집합이라고 했다. 확률론에서 위상공간 $(\Omega, \tau)$ 위의 보렐 필드 $\mathcal{F}$의 원소인 보렐 집합을 사건(Event; 事件)이라고 한다. 즉, 흔히 말하는 사건은 집합이다. 그리고 보렐 필드는 $\Omega$의 위상에 의해 생성되므로 확률시행에서 생각할 수 있는 모든 사건을 담고 있어야 한다.

예를 들어, 1회의 베르누이 시행에서 보렐 필드 $\mathcal{F}$는 다음과 같다.

$$
\mathcal{F}=\mathcal{P}(\Omega)=\lbrace \emptyset,\lbrace1\rbrace,\lbrace0\rbrace,\Omega \rbrace
$$

모든 것을 담고 있으므로 $\mathcal{F}=\mathcal{P}(\Omega)$인 것이다. 2회의 베르누이 시행에서는 $\mathcal{F}^2=\mathcal{P}(\Omega^2)$이고, 다음과 같은 집합들(총 16개)을 원소로 갖는다.

note: 이걸 보고 고등학교 때 ‘부분집합의 개수 구하기’문제를 떠올렸다면 그 느낌이 맞다. 임의의 집합 $X$의 멱집합은 $\mathcal{P}(X)$로 쓰기도 하지만, $2^X$라고 쓰기도 하는데, 멱집합의 원소는 부분집합이고 부분집합의 개수는 $2^{\vert X \vert}$, $\vert X \vert$는 $X$의 원소의 개수로 맞아 떨어진다.

확률론에서는 각 사건에 다음과 같이 특별한 이름을 붙인다.

$\space$


(1) 필연사건(Certain Event; 必然事件): 확률시행의 모든 결과를 원소로 갖는 사건. 반드시 발생하는 사건이다. 필연사건은 표본공간 $\Omega$를 보렐 필드에 포함시키면서 얻은 사건으로, 표본공간 그 자체이다.

(2) 불가능사건(Impossible Event; 不可能事件): 확률시행에서 발생할 수가 없는 사건. 불가능사건은 $\emptyset$이다. 표본공간이 보렐 필드에 포함되면서 여집합으로 같이 포함되었다.

(3) 근원사건(Elementary Event; 基本事件): 필연사건과 불가능사건을 제외하고, 표본공간에서 더 이상 쪼개질 수 없는 사건. 예시에서 1개의 결과만을 갖는 사건들이다.

(4) 복합사건(Compound Event; 复合事件): 보렐 필드에서 필연사건, 불가능사건, 근원사건을 제외한 나머지 원소들. 예시에서 2~3개의 결과를 갖는 사건들이다.


$\space$

이렇게 사건을 확률시행의 결과를 원소로 갖는 집합으로 정의할 때 좋은 점 하나는, 사건의 발생(Occur; 发生)도 수학적으로 명확하게 정의할 수 있다는 것이다.

예를 들어, 2회의 베르누이 시행에서 사건 $\lbrace (1,1),(0,0) \rbrace$이 발생했다는 것은 $(\omega_1,\omega_2) \in \lbrace (1,1),(0,0) \rbrace$과 같은 말이다, 이 경우 확률시행의 결과는 $(\omega_1,\omega_2) =(1,1)$이거나 $(\omega_1,\omega_2) =(0,0)$이다. 그리고 사건 $\lbrace (1,1),(0,0) \rbrace$이 발생하지 않았다는 것은 $(\omega_1,\omega_2) \notin \lbrace (1,1),(0,0) \rbrace$과 같은 말이다. 이 경우는 $(\omega_1,\omega_2) \neq (1,1)$이고 $(\omega_1,\omega_2)\neq(0,0)$이다.

또 하나의 좋은 점은 집합의 연산과 논리 연산이 사건의 연산에 그대로 적용된다는 것이다. 자주 쓰이는 사건의 연산과 관계를 정리하면 다음과 같다:

확률론에서는 합사건, 곱사건, 여사건에 대해 다음과 같이 특별한 기호를 쓰기도 한다.

$\space$


(1) 합사건: $E_1+E_2$, $\sum_{i=1}^{n}E_i$와 같이 기존의 덧셈기호 활용. 단, $E_i$끼리는 서로소.

(2) 곱사건: $E_1E_2$, $\prod_{i=1}^nE_i$와 같이 기존의 곱셈기호 활용.

(3) 여사건: $\overline{E}$와 같이 사건 위에 가로선을 긋는다.


$\space$

이렇게 표기하면 장점이 많다. 간편하기도 하고, 가독성도 올라간다. 사건간의 연산이 확률간의 연산과 비슷하게 작동하기 때문이다. 특히 합사건의 경우, 덧셈기호를 썼다는 것 자체가 각 사건이 서로소라는 것을 함축하기 때문에, 사족을 붙이지 않아도 된다는 장점이 있다.

#4. 확률(확률측도)

보렐 필드 위의 측도인 확률측도(Probability Measure; 概率测度)를 줄여서 확률(Probability; 概率)이라고 하고, $P$로 나타낸다. 측도의 정의를 다시 떠올려보자.

$\space$


$\Sigma$를 측정가능한 대상의 모임이라고 생각하자. 함수 $\mu:\Sigma \to \mathbb{R}$이 다음 조건을 만족하면, $\mu$를 $\Sigma$ 위의 측도라고 한다.

(1) $\forall M \in \Sigma: \mu(M) \ge 0$

(2) $\mu(\emptyset)=0$

(3) $\mu\left(\bigcup_{i=1}^{\infty}M_i\right)=\sum_{i=1}^{\infty}\mu(M_i),\space
M_i \cap M_j=\emptyset, i \neq j$


$\space$

조건 (1)에 의하면, 확률측도는 0부터 무한대의 값을 가진다. 그런데 우리는 이미 확률이 0부터 1사이의 값을 갖는다는 것을 알고 있다. 즉, 확률은 다음과 같이 정의되어야 한다.

$$
P:\mathcal{F} \to [0,1]
$$

즉, 확률은 가측집합인 사건을 0부터 1까지의 숫자로 측정하는 함수여야한다. 그리고 불가능사건의 확률은 0이고, 필연사건의 확률은 1이어야 한다. 이를 실현하기 위해서 측도의 조건 (2)을 $P(\Omega)=1$이라고 바꾸자. 그리고 다시 확률측도를 정의하자.

$\space$


보렐 필드 $\mathcal{F}$ 위의 확률측도 $P$는 다음을 만족한다.

(1) $\forall E \in \mathcal{F}: P(E) \ge 0$

(2) $P(\Omega)=1$

(3) $P\left(\bigcup_{i=1}^{\infty}E_i\right)=\sum_{i=1}^{\infty}P(E_i),\space
E_i \cap E_j=\emptyset, i \neq j$


$\space$

이 3가지의 조건을 확률의 공리(Probability Axioms; 概率公理)라고 한다. 러시아 수학자 안드레이 콜모고로프(Andrey Kolmogorov)에 의해 제안되었다. 이 3가지가 공리이므로 증명하지 않고 당연한 것으로 받아들인 후, 다른 것들을 유도하는 방식으로 확률론을 기술한다.

그리고 원래 있던 (2)를 마음대로 바꿨으니 원상복구 해놓아야 한다. 우선 새로운 (2)와 (3)에 의해 다음이 성립한다.

$$
1=P(\Omega)=P(\Omega\cup\emptyset\cup\emptyset\cup\cdots)=P(\Omega)+P(\emptyset)+P(\emptyset)+\cdots
$$

그런데 (1)에 의해 $P(\emptyset) \ge 0$이므로, $P(\emptyset)=0$일 수밖에 없다. 즉, $P(\Omega)=1$이면 자동으로 $P(\emptyset)=0$이다. 이렇게 전체측도를 1로 제한하는 데 성공했다.

전체측도를 1로 제한하면, 임의의 사건과 그 여사건의 확률의 합이 1임을 보일 수 있다. 공리 (2)와 공리 (3)을 이용하자.

$$
1=P(\Omega)=P(E\cup E^c)=P(E)+P(E^c)
$$

이 외에도, 확률의 단조성(Monotonicity; 单调性)도 얻을 수 있다.

$$
E_1 \subseteq E_2 \Rightarrow P(E_1) \le P(E_2)
$$

직관적으로 이해해도 되고, 증명을 통해 이해해도 된다. 증명은 간단하다. $E_1 \subseteq E_2$이므로 $E_2=E_1 + \overline{E}_1 E_2$이다. 공리 (1)에 의해 $P(\overline{E}_1 E_2)\ge0$, $P(E_1)\ge0$이고, 공리 (2)에 의해 다음 부등식이 성립한다.

$$
P(E_2)=P\left(E_1 + \overline{E}_1 E_2\right)=P(E_1)+ P(\overline{E}_1 E_2)\ge P(E_1)
$$

비슷한 방식으로 확률론에서 유용한 여러가지 공식들을 얻을 수 있다.

$\space$


(1) $P(\bigcup_{i=1}^{n}E_i)=1-P(\bigcap_{i=1}^{n}\overline{E}_i)$

(2) $P(\bigcup_{i=1}^{n}E_i)=P(E_1)+P(E_2\overline{E}_
1)+P(E_3\overline{E}_
1\overline{E}_
2)+\cdots+P(E_n\overline{E}_
1\overline{E}_
2\cdots\overline{E}_
{n-1})$

(3) 포함-배제의 원리(Inclusion-Exclusion Principle; 容斥原理)

$$
\begin{split}
P\left(\bigcup_{i=1}^{n}E_i\right)=
&\sum_{i=1}^nP(E_1)-\sum_{1\le i<j\le n}P(E_iE_j)
\\
&+\sum_{1\le i<j<k\le n}P(E_iE_jE_k)+\cdots+(-1)^{n+1}P(E_1E_2\cdots E_n)
\end{split}
$$


$\space$

이 중, 포함-배제의 원리는 2~3개의 합집합의 확률을 구할 때 특히 자주 쓰인다.

$$
\begin{split}
P(A\cup B)=&P(A)+P(B)-P(AB)
\\
P(A\cup B\cup C)=&P(A)+P(B)+P(C)
\\
&-\left(P(AB)+P(AC)+P(BC)\right)
\\
&+P(ABC)
\end{split}
$$

증명은 생략. 대부분 간단하거나, 직관적으로 받아들여도 되는 공식들이다.

'확률론과 수리통계' 카테고리의 다른 글

기하학적 확률  (0) 2022.10.29
고전적 확률  (0) 2022.10.27
측도공간  (0) 2022.10.23
감마분포  (0) 2022.10.22
지수분포  (0) 2022.10.21