본문 바로가기

확률론과 수리통계

z분포

 

 

요약:

#1. 정의

임의의 모집단 $X$에서 크기가 $n$인 단순무작위표본 $X_1, X_2,\cdots, X_n$을 추출했다고 가정하자. 중심극한정리에 의해 통계량 $Z:=\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}$는 표준정규분포 $\mathrm{N}(0,1)$에 분포수렴한다.

따라서 $n$이 충분히 클 때 $Z\sim\mathrm{N}(0,1)$이라고 표현할 수 있으며, 이 이유로 표준정규분포를 z분포라고도 한다.

z분포의 확률밀도함수는 곧 표준정규분포의 확률밀도함수다.

$$ f_Z(z)=\frac{1}{\sqrt{2\pi}}e^{-\frac{z^2}{2}} $$

#2. 모집단의 분포는 상관없다.

‘임의의 모집단’이라는 것이 중요하다. 모집단의 분포와 상관없이 IID인 $X_1, X_2,\cdots, X_n$에 대해 중심극한정리가 성립하므로, $\overline{X}\overset{d}{\to}\mathrm{N}(\mu,\sigma^2/n)$이라는 사실을 지난 글에서 유도했다. (표본추출분포 참조.) 따라서 $n$이 충분히 크다면, 모집단의 분포와 상관없이 다음과 같은 표현이 가능한 것이다.

$$ \overline{X}\sim\mathrm{N}(\mu,\sigma^2/n) $$

정의에 의해 통계량 $Z:=\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}$는 표본평균 $\overline{X}$의 표준화 확률변수이다. 따라서 $n$이 충분히 클 때 다음과 같은 표현이 가능하다.

$$ Z:=\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\sim\mathrm{N}(0,1) $$

모집단 $X$가 정규분포 $\mathrm{N}(\mu,\sigma^2)$를 따른다면, 표본크기 $n$과는 상관없이 $Z\sim\mathrm{N}(0,1)$이다.

#3. 핵심은 표본의 합이다.

사실 $Z$ 통계량 말고도 $\overline{X}$도 정규분포를 따르고, $\overline{X}-\mu$도 정규분포를 따르고, $\frac{\overline{X}-\mu}{\sigma}$도 정규분포를 따른다. 물론 표준정규분포를 따르는 것은 아니다. 이 통계량들은 모두 $\overline{X}$를 포함하고 있다. 한편, $\overline{X}=\frac{1}{n}\sum_{i=1}^{n}X_i$이므로, 결국은 이 모든 통계량들이 표본의 합을 포함하고 있다.

중심극한정리의 핵심도 사실은 단순무작위표본의 합 $\sum_{i=1}^{n}X_i$이 정규분포를 따른다는 것이다. 이때 표본의 크기만 충분하다면, 모집단의 분포는 전혀 상관이 없다. 단순무작위추출에 의해 표본의 개체는 독립항등분포를 따르며, 린데베르그 조건이 만족되어 표본의 합은 정규분포에 분포수렴한다.

표본의 합이 정규분포를 따른다는 사실을 알고나면, 그것의 선형변환인 $\overline{X}$, $\overline{X}-\mu$, $\frac{\overline{X}-\mu}{\sigma}$ 등이 정규분포를 따른다는 것을 쉽게 알 수 있다.

사실 IID인 확률변수 수열의 합이 정규분포에 분포수렴한다는 것은 이미 Irwin-Hall 분포에서 다뤘다. Irwin-Hall 분포는 IID이면서 $\mathrm{U}(0,1)$를 따르는 확률변수의 합인 $\sum_{i=1}^{n}X_i$의 분포다. 이 확률변수 합의 확률밀도를 $f_n(x)$라고 두고, $n=1,2,3$일 때의 확률밀도를 구했다. $n=1$일 때는 $\mathrm{U}(0,1)$의 확률밀도다.

$$ f_1(x)=\begin{cases} 1,&0<x<1 \\ 0,&\mathrm{otherwise} \end{cases} $$

$$ f_2(x)=\begin{cases} x,&0<x<1 \\ 2-x,&1<x<2 \\ 0,&\mathrm{otherwise} \end{cases} $$

$$ f_3(x)=\begin{cases} \frac{1}{2}x^2,&0<x<1 \\ \frac{1}{2}[(2-x)x+(x-1)(3-x)],&1<x<2 \\ \frac{1}{2}(3-x)^2,&2<x<3 \\ 0,&\mathrm{otherwise} \end{cases} $$

그래프를 그려보면, $n=3$인데 벌써 정규분포 비슷한 모양을 띈다.

<hide/>
import numpy as np
import matplotlib.pyplot as plt

dt = 0.01
t = np.arange(-30, 30, dt)

a, b = 0, 1
uniform = np.heaviside(t - a, 1) - np.heaviside(t - b, 1)

i, n = 1, 3
convlist = []
alplist = []
ilist = []

while i <= n:
    convlist.append(uniform)
    alplist.append(1 / (n + 1 - i))
    ilist.append(i)
    uniform = np.convolve(uniform, uniform, "same") * dt
    i = i + 1

for item in range(n):
    plt.plot(
        t,
        convlist[item],
        alpha=alplist[item],
        label="n=%s" % ilist[item],
        color="#000000",
    )

plt.legend(fontsize=8, frameon=False, loc="upper right")
plt.xlim([0, 5])
plt.show()

 

그래서 서로 독립이며 $\mathrm{U}(0,1)$를 따르는 $n$개의 확률변수의 합은 정규분포에 분포수렴하는데, 이 정규분포의 평균과 분산은 각각 $n/2$와 $n/12$로 두면 될 것이다. $\mathrm{U}(0,1)$의 평균과 분산이 각각 $1/2$와 $1/12$이기 때문이다.

따라서 IID $X_i\sim\mathrm{U}(0,1)$에 대해 다음이 성립하고,

$$ \sum_{i=1}^{n}X_i\overset{d}{\to}\mathrm{N}(n/2,n/12) $$

표준화 하면 다음과 같다.

$$ \frac{\sum_{i=1}^{n}X_i-\frac{n}{2}}{\sqrt{n}\sqrt{\frac{1}{12}}}\overset{d}{\to}\mathrm{N}(0,1) $$

$n$이 충분히 커야하므로 $n=12$를 넣으면 서로 독립인 12개의 표준균등분포 난수 $X_i$를 이용하여 하나의 z분포 난수 $Z$를 생성하는 공식을 얻는다.

$$ Z=\sum_{i=1}^{12}X_i-6\sim\mathrm{N}(0,1) $$

#4. z분포의 분위수 구하기

자주 쓰이는 z분포의 분위수를 알아두자. 먼저 숫자를 보고, 그에 해당하는 $\alpha$가 얼마인지 알면 통계관련 글을 읽는데 좀 수월할 것이다. 예를 들어 1.96이라는 숫자가 나오면 $z_{0.025}$라고 생각하는 것이다.

$$ \begin{alignat*}{10} &z_{0.05} &=& 1.65 \\ &z_{0.025} &=& 1.96 \\ &z_{0.01} &=& 2.33 \\ &z_{0.005} &=& 2.58 \end{alignat*} $$

이 분위수들은 어떻게 구할까? z분포의 누적분포함수 $\Phi(z)$를 이용한다. 분위수의 정의에 의해, $z_{\alpha}$는 $\Phi(z_{\alpha})=1-\alpha$를 만족하는 수다.

보통 z분포의 누적분포함수 $\Phi(z):=\int_{-\infty}^{z}\frac{1}{\sqrt{2\pi}}e^{-t^2/2}\space dt$의 값은 표준정규분포표(또는 z분포표라고도 함. 통계학 서적 뒷쪽 부록에 실려있다.)에서 찾는다. 예를 들어 $\Phi(1.15)=0.87493$이라는 값은 다음과 같이 찾아서 구한 것이다.

z분포표 영문 위키피디아 링크: https://en.wikipedia.org/wiki/Standard_normal_table

한편, $\Phi(1.15)=0.87493=1-0.12507$이므로 $z_{0.12507}=1.15$인 것을 알 수 있다.

바로 이 방법으로 $z_{0.05}$ 등의 자주 쓰이는 분위수를 알아낼 수 있다.

$$ \Phi(z_{0.05})=1-0.05=0.95 $$

이므로, 먼저 표에서 최대한 0.95와 비슷한 숫자를 찾는다. 그 숫자는 0.94950이나 0.95053인데 해당하는 행은 1.6이고 열은 +0.04에서 +0.05 사이이므로 $z_{0.05}=1.64\sim1.65$인데, 대략$z_{0.05}=1.645$정도로 보고, 이 값을 반올림해서 1.65라고 보는 것이다.

한편, z분포는 0을 기준으로 대칭이므로 $z_{1-\alpha}=-z_{\alpha}$이 성립한다. 따라서 $z_\alpha$를 표에서 찾았다면, $z_{1-\alpha}$는 쉽게 구할 수 있다.

$$ z_{0.95}=-z_{0.05}=-1.65 $$

'확률론과 수리통계' 카테고리의 다른 글

자유도  (0) 2023.02.12
카이제곱분포  (0) 2023.02.12
분위수  (0) 2023.02.11
경험적 분포함수  (0) 2023.02.10
순서통계량과 베타분포  (0) 2023.02.09