본문 바로가기

확률론과 수리통계

경험적 분포함수

#1. 정의

모집단 $X$로부터 표본 $X_1,\cdots,X_n$을 추출했다고 하자. 이때, 다음과 같이 경험적 분포함수(Empirical Distribution Function, EDF; 经验分布函数) $F_n(x)$를 얻을 수 있다.

$$ F_n(x):=\frac{\sum_{i=1}^{n}\mathbf{1}(X_i\le x)}{n}=\begin{cases}0,&x<x_{(1)}\\k/n,&x_{(k)}\le x< x_{(k+1)},k=1,\cdots,n-1\\1,&x\ge x_{(n)}\end{cases} $$

#2. 해석

우선 첫번째 등호부터 해석해보자. 분자 $\sum_{i=1}^{n}\mathbf{1}(X_i\le x)$의 의미는 $X_1,\cdots,X_n$에서 $X_i\le x$를 만족하는 $X_i$의 개수를 센 것이다. 그리고 그것을 표본의 크기 $n$으로 나눴다는 것은 확률을 구한 것이다.

표본의 경험적 분포함수와 비교해서 모집단 $X$의 분포함수의 정의를 떠올려보면, $F_X(x):=P(X\le x)$이다. 즉, 모집단의 분포함수는 확률변수 $X$가 $x$보다 작거나 같을 확률을 나타낸다. 그리고 표본의 경험적 분포함수는 확률변수 $X_i$가 $x$보다 작거나 같을 확률을 나타낸다.

따라서 표본의 경험적 분포함수가 대략 무엇을 위해 정의되었는지 감이 온다. 바로 모집단의 분포함수와 대응되는 통계량을 정의하기 위함이다. 분포함수가 $X$의 누적확률을 나타내듯이, 경험적 분포함수도 $X_i$의 누적확률을 나타낸다. $X_i\le x$를 만족하는 $X_i$의 개수가 1 증가할 때, 누적확률은 $1/n$ 증가한다. 이는 단순무작위 추출에서는 모든 $X_i$의 확률을 평등하게, 가중치가 없다고 보기 때문이다.

이제 두번째 등호를 해석해보자. 순서통계량 $x_{(i)}$가 등장하는데, 경험적 분포함수는 사건 $X_i\le x$를 따져야 하므로, 먼저 추출한 표본을 크기 순으로 나열한 순서통계량이 필수적으로 들어간다.

이제 어떤 $x$를 기준으로 잡고, 그것보다 작거나 같은 개체의 개수를 세려고 하는데, 만약 이 $x$가 최소값보다 작다면, 이것보다 작거나 같은 개체의 개수는 0이다. 따라서 확률은 $0/n=0$이 된다. 반대로 이 $x$가 최대값보다 크다면, 모든 개체는 $x$보다 작고, 따라서 이것보다 작거나 같은 개체의 개수는 $n$, 확률은 $n/n=1$이다. 이렇게 극단적인 $x$말고 적당한 $x$를 생각해보면, $x_{(k)}\le x< x_{(k+1)}$으로 잡았을 때, 이보다 작거나 같은 개체는 총 $k$개 있고, 확률은 $k/n$이다. 개체 1개의 확률인 $1/n$이 $k$번 누적된 것이다.

직접 구해봤더니 이해가 더 빠르다. 표본 $1,2,3$의 EDF는 다음과 같다. $x\in(-\infty,1)$보다 작거나 같은 개체는 없고, $[1,2)$보다 작거나 같은 개체는 ‘1’ (총 1개), $[2,3)$보다 작거나 같은 개체는 ‘1, 2’ (총 2개), 그리고 $[3,\infty)$보다 작거나 같은 개체는 ‘1, 2, 3’ (총 3개, 표본 전체) 있다.

$$ F_{3}(x)=\begin{cases}0,&x<1\\1/3,&1\le x<2\\2/3,&2\le x<3\\1,&x\ge3\end{cases} $$

표본 $1,1,2$의 EDF는 다음과 같다.

$$ F_{3}(x)=\begin{cases}0,&x<1\\2/3,&1\le x<2\\1,&x\ge2\end{cases} $$

#3. 의의

경험적 분포함수는 모집단의 분포함수에 대응하는 통계량이다. 만약 $n$이 충분히 크다면, 표본의 $F_n(x)$와 모집단의 $F(x)$가 같아지지 않을까?

일반적으로 추론은 연역적 추론, 즉 전체에서 일부를 얻는 것을 말한다. 하지만 통계학은 그 반대인 일부에서 전체를 얻으려고 하는 귀납적 시도를 하고 있다. 만약 표본의 EDF가 모집단의 CDF와 같아진다면, 모집단의 일부에 불과한 표본을 추출해서 전체인 모집단을 이해하려는 시도가 정당화될 것이다.

이를 수학적으로 증명한 것이 바로 글리벤코-칸텔리 정리(Glivenko–Cantelli Theorem; 格里汶科定理)다. 글리벤코-칸텔리 정리에 의하면, EDF는 CDF에 확률 1로 균등수렴한다.

$$ P\left(\lim_{n\to\infty}\sup_{x\in\mathbb{R}}\vert F(x)-F_n(x)\vert=0\right)=1 $$

따라서 경험적 분포함수는 통계적 추론에서 매우 중요한 역할을 한다. 표본의 크기가 충분히 크다면, $F_n(x)$로 $F(x)$를 대체할 수 있기 때문이다.

'확률론과 수리통계' 카테고리의 다른 글

z분포  (0) 2023.02.11
분위수  (0) 2023.02.11
순서통계량과 베타분포  (0) 2023.02.09
순서통계량  (0) 2023.02.08
감마함수  (0) 2023.02.05