본문 바로가기

확률론과 수리통계

표본추출분포

요약:

#1. 표본추출분포

모집단 $X$로부터 단순무작위추출 방법으로 추출한 표본 $X_1,X_2,\cdots,X_n$은 확률변수 수열이며, 표본의 각 개체 $X_i$는 확률변수다.

통계량은 $X_i$의 함수다. 예를 들어 표본평균 $\overline{X}=\frac{1}{n}\sum_{i=1}^{n}X_i$는 $X_i$의 함수다. 따라서 통계량 역시 확률변수다.

통계량이 확률변수이므로, 이에 대응되는 확률분포가 있다. 통계량의 확률분포를 표본추출분포(Sampling Distribution; 抽样分布)라고 한다.

note: 표본추출분포를 줄여서 표본분포라고도 하는데, ‘표본의 분포’와는 다른 개념이고 헷갈리니까 줄일거면 차라리 ‘추출분포’라고 하는 편이 좋겠다.

#2. 표본추출분포 2가지

이번 글에서는 모집단 $X$로부터 단순무작위표본 $X_1,X_2,\cdots,X_n$을 뽑는 상황을 가정하고, 자주 쓰이는 표본추출분포 2가지를 구해서 정리한다. $\mu:=\mathbb{E}[X]$, $\sigma^2:=\mathrm{Var}[X]$로 놓자.

#2-1. $\overline{X}$의 분포

가정에 의해 $X_i$는 독립항등분포를 따르므로 중심극한정리가 성립한다. 즉 표본의 합을 표준화 한 것은 표준정규분포에 분포수렴한다.

$$ \frac{\sum_{i=1}^{n}X_i-\mathbb{E}\left(\sum_{i=1}^{n}X_i\right)}{\sqrt{\mathrm{Var}(\sum_{i=1}^{n}X_i)}}\overset{d}{\to}\mathrm{N}(0,1) $$

표준화를 하지 않은 표본의 합은 일반적인 정규분포에 분포수렴한다.

$$ \sum_{i=1}^{n}X_i\overset{d}{\to}\mathrm{N}\left(\mathbb{E}\left[\sum_{i=1}^{n}X_i\right],\mathrm{Var}\left[\sum_{i=1}^{n}X_i\right]\right)=\mathrm{N}(n\mu,n\sigma^2) $$

$\mathbb{E}\left[\sum_{i=1}^{n}X_i\right]$와 $\mathrm{Var}\left[\sum_{i=1}^{n}X_i\right]$는 다음과 같이 계산한다. ($X_i$가 독립항등분포를 따른다는 것을 이용한다.)

$$ \begin{split} &\mathbb{E}\left[\sum_{i=1}^{n}X_i\right]=\sum_{i=1}^{n}\mathbb{E}[X_i]=n\mu \\ &\mathrm{Var}\left[\sum_{i=1}^{n}X_i\right]=\sum_{i=1}^{n}\mathrm{Var}[X_i]=n\sigma^2 \end{split} $$

이제 표본의 합의 분포를 알았으므로 그것을 표본크기로 나눈 표본평균의 분포를 구해보자, 우선 $\mathbb{E}[\overline{X}]$와 $\mathrm{Var}[\overline{X}]$를 구해보면

$$ \begin{split} &\mathbb{E}[\overline{X}]=\mathbb{E}\left[\frac{1}{n}\sum_{i=1}^{n}X_i\right]=\frac{1}{n}\sum_{i=1}^{n}\mathbb{E}[X_i]=\frac{1}{n}\cdot n\mu=\mu \\ &\mathrm{Var}[\overline{X}]=\mathrm{Var}\left[\frac{1}{n}\sum_{i=1}^{n}X_i\right]=\frac{1}{n^2}\sum_{i=1}^{n}\mathrm{Var}[X_i]=\frac{1}{n^2}\cdot n\sigma^2=\sigma^2/n \end{split} $$

이 사실만 가지고 $\overline{X}\sim\mathrm{N}(\mu,\sigma^2/n)$이라고 할 수는 없다. 단지 $\mathbb{E}[\overline{X}]$와 $\mathrm{Var}[\overline{X}]$을 구했을 뿐이다.

$\overline{X}$이 정규분포를 따르는 것은 어떻게 유도할 수 있을까? 이미 $Y=\sum_{i=1}^{n}X_i$가 정규분포를 따르므로, 거기에 상수배를 한 $\frac{1}{n}\cdot Y$ 역시 정규분포를 따르는 것을 보이면 된다.

지난 글에서 정리한 확률변수의 변환 공식을 써먹어보자. $Y$가 정규분포 $\mathrm{N}(\mu,\sigma^2)$를 따르면, 그것의 변환 $T(Y)=aY+b$는 어떤 분포를 따를까?

$$ \begin{split} f_{aY+b}(y)=\left\vert\frac{1}{a}\right\vert f_{Y}\left(\frac{y-b}{a}\right)=\frac{1}{\sqrt{2\pi}\vert a\vert\sigma}\exp\left(-\frac{1}{2a^2\sigma^2}[y-(a\mu+b)]^2\right) \end{split} $$

이므로, $aY+b\sim\mathrm{N}(a\mu+b,a^2\sigma^2)$이다. 따라서 $\overline{X}\sim\mathrm{N}(\mu,\sigma^2/n)$이 맞다.

모집단 $X$가 어떤 분포인지에 상관없이 $n\to\infty$일 때 중심극한정리에 의해 $\overline{X}\sim\mathrm{N}(\mu,\sigma^2/n)$라는 사실이 중요하다.

note: 왜 이런 표본추출분포를 구했나? 표본평균의 분포는 표본평균 관련 가설검정법인 z검정과 관련이 있기 때문에 구했다. 중심극한정리에 의해 표본크기만 충분히 크다면, 모집단의 분포를 신경쓰지 않고 z검정을 할 수 있게 된다.

#2-2. $X\sim\mathrm{N}(\mu,\sigma^2)$일 때 $\sum_{i=1}^n(X_i^{\ast})^2$의 분포

모집단이 정규분포 $\mathrm{N}(\mu,\sigma^2)$를 따르므로, 표본의 각 개체도 같이 정규분포 $\mathrm{N}(\mu,\sigma^2)$를 따르고, 개체를 표준화한 $X_i^{\ast}$는 표준정규분포를 따른다. 즉, 이런 가정하에 이런 통계량의 분포를 구하는 것은 곧 표준정규분포(z분포)를 따르는 확률변수 $Z_i$의 제곱합, $\sum_{i=1}^nZ_i^2$의 분포를 구하는 것과 같다.

우선 $n=1$로 놓고, 통계량 $Z_1^2=Z^2$의 분포를 구해보자. 역시 지난 글에서 정리한 확률변수의 변환공식을 써먹어보자. $Y=kX^2,k>0$에 대해, 다음과 같은 공식을 유도했다.

$$ f_Y(y)= \begin{cases} \frac{1}{2\sqrt{ky}}\left(f_X(\sqrt{y/k})+f_X(-\sqrt{y/k})\right),&y>0 \\ 0,&y\le0 \end{cases} $$

$Z\sim\mathrm{N}(0,1)$이므로 $W=Z^2$의 확률밀도함수는 다음과 같이 구할 수 있다.

이것은 감마분포 $\Gamma(1/2,1/2)$의 확률밀도와 같다. 따라서 $Z_1^2\sim\Gamma(1/2,1/2)$이다.

note: 감마분포 $\Gamma(r,\lambda)$의 확률밀도 $f_T(t)=\frac{\lambda^r}{\Gamma(r)}t^{r-1}e^{-\lambda t}\mathbf{1}(t>0)$

원래의 목표인 $\sum_{i=1}^nZ_i^2$의 분포는 $Z_1^2$의 분포를 $n$번 합성곱해서 구하려고 했다. 그런데 그럴 필요없이 $Z_1^2\sim\Gamma(1/2,1/2)$이므로 감마분포의 정의에 의해 $\sum_{i=1}^nZ_i^2\sim\Gamma(n/2,1/2)$임을 바로 알 수 있다.

note: 감마분포의 정의. 평균 발생횟수가 $\lambda t$인 어떤 사건이 $r_i$번 발생하기까지 걸린 시간 $T_i$는 감마분포 $\Gamma(r_i,\lambda)$를 따른다. 시간 $T_1+T_2$는 평균 발생횟수가 $\lambda t$인 사건이 $r_1+r_2$번 발생하기까지 걸린 시간이므로, $T_1+T_2\sim\Gamma(r_1+r_2,\lambda)$이다.

따라서 $W=\sum_{i=1}^nZ_i^2$의 확률밀도는

$$ f_W(k)= \begin{cases} \frac{(1/2)^{n/2}}{\Gamma(n/2)}k^{n/2-1}e^{-k/2},&k>0 \\ 0,&\mathrm{otherwise} \end{cases} $$

정리하면 $X\sim\mathrm{N}(\mu,\sigma^2)$일 때 $\sum_{i=1}^n(X_i^{\ast})^2\sim\Gamma(n/2,1/2)$이다. 표본평균의 분포와는 달리 모집단이 정규분포를 따른다는 가정이 들어간다.

note: 왜 이런 표본추출분포를 구했나? $\sum_{i=1}^nZ_i^2$의 분포는 표본분산 관련 분포인 카이제곱분포와 연관이 있다. 그리고 카이제곱분포는 카이제곱검정에 사용된다.

'확률론과 수리통계' 카테고리의 다른 글

순서통계량  (0) 2023.02.08
감마함수  (0) 2023.02.05
통계학 기본 용어 정리  (0) 2023.02.02
이항정리  (0) 2023.02.02
누율생성함수, 누율  (2) 2023.01.30