본문 바로가기

확률론과 수리통계

두 정규분포 모집단의 가설검정

요약:

지난 글에서 논의한 각종 가설검정법은 모두 모집단이 하나일 때 쓰는 방법이다. 이 방법을 쓰면 모집단에서 표본을 추출하고, 표본의 평균과 모집단의 표본을 비교할 수 있다.

이번에는 서로 독립인 두 모집단을 비교할 때 쓰는 가설검정을 알아보자. 친숙한 표본추출분포를 쓰기 위해 두 모집단 모두 정규분포를 따른다는 것을 가정한다.

$$ X\perp Y, \\ X\sim\mathrm{N}(\mu_X,\sigma_X^2),\space Y\sim\mathrm{N}(\mu_Y,\sigma_Y^2) $$

지난 글에서 했던 것처럼 유의수준은 $\alpha$로 두고, 구체적인 p값은 배제하고, 검정통계량의 관찰값과 임계값의 비교를 중심으로 논의한다.

 

# 1. 모평균 차이 $(\mu_X-\mu_Y)$ 관련 가설검정

두 집단의 평균을 비교하는 것이 목표다. 검정가설은 다음과 같이 설정한다.

$$ H_0:\mu_X=\mu_Y \\ H_1:\mu_X\not=\mu_Y $$

표본추출분포를 써먹기 위해 가설의 형태를 변경한다.

$$ H_0:\mu_X-\mu_Y=0 \\ H_1:\mu_X-\mu_Y\not=0 $$

이제 $\mu_X-\mu_Y$에 관한 가설검정으로 바뀌었다.

지난 글에서 구간추정과 가설검정의 유사성을 논의했다. 신뢰구간을 참조하면 가설검정의 임계값과 검정통계량을 구할 수 있다.

# 1.1 $\sigma_X^2$, $\sigma_Y^2$를 모두 알고 있을 때

note: 이 검정법을 독립표본 z검정(Independent Samples Z-Test; 独立样本z检验)이라고 한다. 서로 독립인 모집단에서 표본을 1개씩 뽑았으므로 표본끼리 서로 독립이다. 모분산을 알고 있으므로 z분포를 사용하는 z검정을 한다.

모평균 차이 $\mu_X-\mu_Y$의 신뢰수준 $1-\alpha$인 양측 신뢰구간은 다음과 같다.

$$ (\underline{\mu_X-\mu_Y},\overline{\mu_X-\mu_Y})=(\bar{X}-\bar{Y}\pm\sqrt{\frac{\sigma_X^2}{n_X}+\frac{\sigma_Y^2}{n_Y}}z_{\alpha/2}) $$

따라서 검정통계량은 다음과 같다. $H_0$이 맞다고 가정하므로 $\mu_X-\mu_Y=0$이다.

$$ \frac{\bar{X}-\bar{Y}-(\mu_X-\mu_Y)}{\sqrt{\frac{\sigma_X^2}{n_X}+\frac{\sigma_Y^2}{n_Y}}}=\frac{\bar{X}-\bar{Y}}{\sqrt{\frac{\sigma_X^2}{n_X}+\frac{\sigma_Y^2}{n_Y}}}\sim\mathrm{N}(0,1) $$

기각역은 다음과 같다.

$$ (-\infty,-z_{\alpha/2})\cup(z_{\alpha/2},\infty) $$

# 1.2 $\sigma_X^2=\sigma_Y^2=\sigma^2$이라는 사실을 알고 있을 때

note: 이 검정법을 독립표본 t검정(Independent Samples T-Test; 独立样本t检验)이라고 한다. 서로 독립인 모집단에서 표본을 1개씩 뽑았으므로 표본끼리 서로 독립이다. 모분산을 모르므로 그것을 표본분산으로 대체하고, 따라서 t분포를 사용하는 t검정을 한다.

모평균 차이 $\mu_X-\mu_Y$의 신뢰수준 $1-\alpha$인 양측 신뢰구간은 다음과 같다.

$$ (\underline{\mu_X-\mu_Y},\overline{\mu_X-\mu_Y})=(\bar{X}-\bar{Y}\pm S_w\sqrt{\frac{1}{n_X}+\frac{1}{n_Y}}t_{\alpha/2}(n_X+n_Y-2)) $$

따라서 검정통계량은 다음과 같다. $H_0$이 맞다고 가정하므로 $\mu_X-\mu_Y=0$이다.

$$ \frac{\bar{X}-\bar{Y}-(\mu_X-\mu_Y)}{S_w\sqrt{\frac{1}{n_X}+\frac{1}{n_Y}}}=\frac{\bar{X}-\bar{Y}}{S_w\sqrt{\frac{1}{n_X}+\frac{1}{n_Y}}}\sim t(n_X+n_Y-2) $$

기각역은 다음과 같다.

$$ (-\infty,-t_{\alpha/2}(n_X+n_Y-2))\cup(t_{\alpha/2}(n_X+n_Y-2),\infty) $$

# 1.3 $\sigma_X^2$, $\sigma_Y^2$에 대해 아무런 정보가 없을 때

note: 이 경우는 독립표본 z검정이라고 불러야 할지 독립표본 t검정이라고 불러야 할지 잘 모르겠다. ‘u검정’이라고 하는 사람도 있다. 사실 표본의 크기가 충분히 크다면 z분포나 t분포나 거기서 거기이므로, 두 모집단의 평균을 비교하는 검정방법을 모두 통틀어 t검정이라고 부른다. z검정의 모분산에 대한 정보가 있다는 가정도 굉장히 성립하기 힘들기 때문. 따라서 ‘독립표본 t검정’이라고 부르자.

이 경우, 모평균 차이 $\mu_X-\mu_Y$의 신뢰수준 $1-\alpha$인 양측 신뢰구간은 다음과 같았다. 중심극한정리와 큰 수의 법칙에 의거해 근사적으로 구한 것으로, 표본이 충분히 커야한다는 제약이 있었다.

$$ (\bar{X}-\bar{Y}\pm\sqrt{\frac{S_X^2}{n_X}+\frac{S_Y^2}{n_Y}}z_{\alpha/2}) $$

따라서 검정통계량은 다음과 같다. $H_0$이 맞다고 가정하므로 $\mu_X-\mu_Y=0$이다.

$$ \frac{\bar{X}-\bar{Y}-(\mu_X-\mu_Y)}{\sqrt{\frac{S_X^2}{n_X}+\frac{S_Y^2}{n_Y}}}=\frac{\bar{X}-\bar{Y}}{\sqrt{\frac{S_X^2}{n_X}+\frac{S_Y^2}{n_Y}}}\sim\mathrm{N}(0,1)=t(\infty) $$

기각역은 다음과 같다.

$$ (-\infty,-z_{\alpha/2})\cup(z_{\alpha/2},\infty) $$

t분포를 이용해서 표시하면

$$ (-\infty,-t_{\alpha/2}(\infty))\cup(t_{\alpha/2}(\infty),\infty) $$

# 2. 모분산 비 $\sigma_X^2/\sigma_Y^2$ 관련 가설검정

두 집단의 분산을 비교하는 것이 목표다. 검정가설은 다음과 같이 설정한다.

$$ H_0:\sigma^2_X=\sigma^2_Y \\ H_1:\sigma^2_X\not=\sigma^2_Y $$

표본추출분포를 써먹기 위해 가설의 형태를 변경한다.

$$ H_0:\sigma^2_X/\sigma^2_Y=1 \\ H_1:\sigma^2_X/\sigma^2_Y\not=1 $$

이제 $\sigma^2_X/\sigma^2_Y$에 관한 가설검정으로 바뀌었다.

위 논의와 마찬가지로, 신뢰구간을 참조해서 가설검정의 임계값과 검정통계량을 구할 수 있다.

# 2.1 $\mu_X$, $\mu_Y$를 모를 때

모분산 비 $\sigma_X^2/\sigma_Y^2$의 신뢰수준 $1-\alpha$인 양측 신뢰구간은 다음과 같다.

$$ (\underline{\sigma_X^2/\sigma_Y^2},\overline{\sigma_X^2/\sigma_Y^2})=(\frac{S_X^2}{S_Y^2}\frac {1}{F_{\alpha/2}(n_X-1,n_Y-1)},\frac{S_X^2}{S_Y^2}F_{\alpha/2}(n_Y-1,n_X-1)) $$

따라서 검정통계량은 다음과 같다. $H_0$이 맞다고 가정하므로 $\sigma_X^2/\sigma_Y^2=1$이다.

$$ \frac{S_X^2/\sigma_X^2}{S_Y^2/\sigma_Y^2}=\frac{S_X^2}{S_Y^2}\sim F(n_X-1,n_Y-1) $$

기각역은 다음과 같다.

$$ (0,\frac{1}{F_{\alpha/2}(n_X-1,n_Y-1)})\cup(F_{\alpha/2}(n_Y-1,n_X-1),\infty) $$

# 2.2 $\mu_X$, $\mu_Y$를 알고 있을 때

모분산 비 $\sigma_X^2/\sigma_Y^2$의 신뢰수준 $1-\alpha$인 양측 신뢰구간은 다음과 같다.

$$ (\underline{\sigma _X^2/\sigma _Y^2},\overline{\sigma _X^2/\sigma _Y^2})=(\frac{(\beta _2) _X}{(\beta _2) _Y}\frac {1}{F _{\alpha/2}(n _X,n _Y)},\frac{(\beta _2) _X}{(\beta _2) _Y}F _{\alpha/2}(n _Y,n _X)) $$

따라서 검정통계량은 다음과 같다. $H_0$이 맞다고 가정하므로 $\sigma_X^2/\sigma_Y^2=1$이다.

$$ \frac{(\beta _2) _X/\sigma _X}{(\beta _2) _Y/\sigma _Y}=\frac{(\beta _2) _X}{(\beta _2) _Y}\sim F(n _X,n _Y) $$

기각역은 다음과 같다.

$$ (0,\frac{1}{F_{\alpha/2}(n_X,n_Y)})\cup(F_{\alpha/2}(n_Y,n_X),\infty) $$

'확률론과 수리통계' 카테고리의 다른 글

단일표본, 독립표본, 대응표본 t검정  (0) 2023.03.12
t검정과 p값에 대해  (2) 2023.03.11
정규분포 모집단의 가설검정  (2) 2023.03.10
가설검정 개념정리  (0) 2023.03.08
F분포  (0) 2023.03.07