#1. 예시
확률변수 $X$와 $Y$의 분포를 그래프로 나타냈더니 다음과 같은 모습(파란색)이라고 하자.
$X$는 확실히 0-1구간에서 균등분포를 따른다. 그런데 $Y$는 뭔가 이상하다. $Y=0.25$인 점에서 $f_Y(y)$가 갑자기 0.5의 값을 갖는다. 그 외의 점에서는 $f_X(x)$와 확률밀도가 같다.
이때, $Y$도 $X$처럼 0-1구간에서 균등분포를 따른다고 할 수 있을까? $P(a\le X\le b)$와 $P(a\le Y\le b)$를 구해보자.
이 확률은 빨간 빗금의 네모 부분의 면적인데, 점 하나가 그래프에서 어긋나 있다고해서 면적의 값이 달라지지는 않으므로 두 확률의 값은 항상 같다.
그렇다면 실제 응용측면에서는 $f_X$와 $f_Y$의 구별이 의미가 없다. 두 확률밀도는 명백히 다른 함수이지만, 같은 구간의 확률을 구하면 항상 값이 같기 때문이다.
면적이 아니라 적분값으로 접근해봐도 항상 $P(a\le X\le b)=P(a\le Y\le b)$이다.
$$ \begin{split} &P(a\le X\le b)=\int_{a}^{b}1\space dx=b-a \\ &P(a\le Y\le b)=\int_{a}^{0.25}1\space dx+\int_{0.25}^{0.25}0.5\space dx+\int_{0.25}^{b}1\space dx =(0.25-a)+(0)+(b-0.25)=b-a \end{split} $$
이 계산결과를 관찰해보면, 두 함수는 다르지만 적분값이 같은 이유는 ‘함수가 다른 구간의 길이가 0’임에 있다. 만약 $f_Y$가 0.25에서 ‘어긋날’ 뿐만 아니라, 0.75, 1.23에서도 어긋나서 총 세 군데의 엇나간 지점이 있다고 하자. 그래도 같은 구간의 적분값은 같다. 적분구간의 길이가 0이면 그 값은 항상 0이기 때문이다. 따라서 어긋난 곳은 세 군데나 되지만, 적분계산에는 아무런 영향이 없다. 이는 $X$가 어긋나도 마찬가지다.
#2. 정의
이러한 사실을 통해, 자연스럽게 다음과 같이 ‘거의 어디서나’(Almost Everywhere, a.e.; 几乎处处)라는 개념을 정의하게 된다.
$\space$
두 함수 $f,g:\mathbb{R \to R}$에 대해, $\mathbb R$에서의 르베그 외측도 $\lambda^{\ast}(\lbrace x\in\mathbb{R}:f(x)\not=g(x)\rbrace)=0$이성립한다는 것을 ‘거의 어디서나 $f=g$’라고 표현하며, 기호로는 $f\overset{\mathrm{a.e.}}{=}g$ 또는 $f=g(\mathrm{a.e.})$로 나타낸다.
$\space$
$\mathbb R$에서의 르베그 외측도는 길이의 고급스러운 표현이다. (기하학적 확률 참조.) 즉 이 정의에는, $f$와 $g$는 완벽하게 같지는 않지만, 같지 않은 구간의 길이가 0이면 거의 어디서나 같은 것으로 취급하겠다는 뜻이 담겨있다.
따라서 위의 예시에서, $f_X=f_Y(\mathrm{a.e.})$라고 할 수 있다. 그런데 $X\sim\mathrm{U}[0,1]$이므로 다음과 같은 표현을 할 수 있다. $Y$는 거의 어디서나 0-1구간의 균등분포를 따른다는 뜻이다.
$$ Y\overset{\mathrm{a.e.}}{\sim}\mathrm{U}[0,1] $$
확률밀도 외에도, 확률변수의 ‘거의 어디서나 같음’에 대해서도 생각해 볼 수 있다. 확률공간에서의 측도는 확률측도이므로(확률공간 참조.), 두 확률변수 $X,Y:\mathbb{\Omega \to R}$에 대해, $P(\lbrace \omega\in\mathbb{\Omega}:X(\omega)\not=Y(\omega)\rbrace)=0$이 성립하면 $X=Y(\mathrm{a.e.})$이다.
이것을 일반화하면 “어떤 명제가 거의 어디서나 성립한다는 것은 그 명제가 성립하지 않는 측도가 0”이라고 표현할 수 있다.
확률이론과 수리통계에서는 ‘거의 어디서나’라는 표현 대신 ‘거의 확실히’(Almost Surely, a.s.; 几乎必然)이라는 용어를 쓰기도 한다. 예를 들어, 어떤 사건이 거의 확실히 발생한다는 뜻은 그 사건이 발생하지 않을 확률이 0이라는 뜻이다. 발생하지 않을 확률이 0이라면, 발생할 확률은 1이다.
따라서 불가능사건 $\emptyset$의 확률은 0이지만, 확률이 0이라고 해서 불가능사건은 아니다. (연속확률변수를 설명할 때 강조한 부분. 해당 글 참조.) 대신 거의 확실히 발생이 불가능한 사건일 수도 있다. 마찬가지로 필연사건 $\Omega$의 확률은 1이지만, 확률이 1이라고 해서 필연사건은 아니며, 대신 거의 확실히 발생 가능한 사건일 수도 있다.
#3. 의의
‘거의 어디서나’의 개념의 의의는 ‘사소한 것은 따지지 않는다!’로 요약될 수 있다. 예시에서 $X$와 $Y$의 분포는 분명 다르지만, 실제 응용측면에서는 같은 것 취급해도 아무런 문제가 없었다. 그렇기에 $f_X$와 $f_Y$가 다른 지점이 몇 군데 존재하더라도, 이는 ‘사소’하다.
이론전개에서도 사소한 것을 무시함으로써 얻는 이득은 굉장히 크다. 만약 ‘거의 어디서나’라는 개념을 금지한다면, 수많은 통계학 서적에 실린 각종 정리와 법칙들은 예외와 반례로 점철될 것이다. 여태 작성해왔던 글들도 다시 엄밀한 표현으로 갈아엎어야 할지도 모른다.
사소한 것을 무시하면 불가능한 것도 가능해진다. 예를 들어 명제 ‘상수의 분산은 0이다.’의 역은 원래 불가능하지만, ‘거의 어디서나’라는 단서를 붙이면 가능해진다. ‘분산이 0이면 확률변수는 상수다(a.e.)’같이 표현하는 식이다.
디리클레함수(Dirichlet Function; 狄利克雷函数)는 다음과 같이 정의되는 함수이다.
$$ \mathbf{1}_ \mathbb{Q}(x):=\lim_{m\to\infty}\lim_{n\to\infty}\cos^{2n}(m!\pi x) $$
무시무시한 외견과 달리, 이 함수의 작동 메커니즘은 아주 간단한데, 바로 입력 $x$가 유리수이면 1을 출력하고, 무리수이면 0을 출력하는 것이다. 한마디로 유리수 지시함수이다.
이제 디리클레함수를 적분하는 문제를 생각해보자. 실수축은 유리수와 무리수로 빽빽하게 채워져 있는데, 이는 곧 디리클레함수가 모든 점에서 불연속이라는 결론으로 이어지고, 적분이 불가능하다고 생각될지도 모른다.
하지만 유리수는 가산무한개이고 무리수는 비가산무한개이다. 즉 무리수가 유리수보다 ‘훨씬’ 많다. 이 ‘훨씬’의 정도는 $\forall x\in\mathbb R$에 대해 유리수 구간의 길이가 0이고, 무리수 구간의 길이가 1인 정도이다.
왜 그럴까? 유리수는 셀 수 있는 무한개이므로 콜모고로프 확률의 공리 중 가산가법성을 이용하여 유리수집합의 길이를 덧셈으로 구할 수 있다. 한편, 실수축 위의 한 점의 길이는 0이고, 이는 유리수점도 마찬가지다. 따라서 유리수 집합의 길이는 0을 가산무한개 더해서 0이다. 유리수 집합의 길이가 0이므로 무리수 집합의 길이는 1이다.
디리클레함수는 입력이 무리수일 때 0이다. 따라서 ‘거의 어디서나’개념을 활용하면 다음과 같은 결론을 얻는다.
$$ \mathbf{1}_ \mathbb{Q}(x)=0(\mathrm{a.e.}) $$
그래서 $\mathbf{1}_ \mathbb{Q}(x)$를 임의의 구간에서 적분하면 거의 어디서나 0이다.
note1: 디리클레함수는 모든 점에서 불연속이므로 전통적인, 즉 세로방향으로 조각내서 합하는 방식인 리만 적분(Riemann Integral; 黎曼积分)은 불가능하다. 하지만 ‘거의 어디서나’개념을 이용하면 적분할 수 있는데, 이를 르베그 적분(Lebesgue Integral; 勒贝格积分)이라고 한다. 르베그 적분은 리만적분과 달리 가로방향으로 조각내서 합한 방식이다.
note2: 르베그 적분의 아이디어는 단순하다. 1,2,2,1,5,5,2,5,1,2,2,1,5의 합을 구하라는 문제에 대해, 리만 적분의 관점을 토대로 $\Sigma=1+2+2+1+5+\cdots+1+5$로 계산할 것을 르베그 적분의 관점을 쓰면 $\Sigma=1\times4+2\times5+5\times4$로 계산할 수 있다.