본문 바로가기

확률론과 수리통계

정규분포 모집단의 가설검정

요약:

지난 글에서 가설검정과 관련된 여러 개념을 정리했다.

이번 글에서는 모집단이 정규분포를 따를 때 쓰는 여러가지 가설검정 방법을 정리한다. 모집단 $X\sim\mathrm{N}(\mu,\sigma^2)$에서 표본 $X_1,\cdots,X_n$을 추출한 후, 모수 $\mu$와 $\sigma^2$에 관련된 가설검정을 진행한다.

편의상 유의수준을 $\alpha$로 두고, 양측검정을 논의한다. 그리고 p값은 배제한다. 구체적인 p값을 구하는 대신 관측값과 임계값을 비교하는 방식으로 진행할 것이다.

# 1. 모평균 $\mu$ 관련 가설검정

검정가설은 다음과 같이 설정한다.

$$ H_0:\mu=\mu_0 \\ H_1:\mu\not=\mu_0 $$

가설검정의 핵심은 검정통계량의 관측값과 임계값의 비교이다. 지난 글에서는 $\bar{X}-\mu_0$을 검정통계량으로 삼았고 논의를 진행했다.

정규분포 모집단을 가정하므로 이 검정통계량은 정규분포를 따른다. 그리고 영가설이 맞다는 가정하에 가설검정이 진행되므로 이 검정통계량의 평균은 0이다. 따라서 이 검정통계량의 분포는 0에 관해 대칭인 정규분포다.

그런데 이 검정통계량의 분산은 알 수 없었다. 따라서 구체적인 분포를 확정하지 못하므로 임계값도 $\pm F_{\alpha/2}$와 같이 추상적인 것으로 둘 수밖에 없었다.

실제 가설검정에서는 $\bar{X}-\mu_0$대신 분포가 확실한 $Z$ 통계량과 $T$ 통계량을 쓴다. 비교적 친숙한 표본추출분포인 z분포와 t분포를 쓰는 것이다.

$$ Z:=\frac{\bar{X}-\mu_0}{\sigma/\sqrt{n}}\sim\mathrm{N}(0,1) \\[2ex] T:=\frac{\bar{X}-\mu_0}{S/\sqrt{n}}\sim t(n-1) $$

검정통계량에 $\mu$가 아니라 $\mu_0$이 들어가지만 어차피 영가설이 맞다는 가정을 깔고 들어가므로 상관이 없다. 분포가 확정되었으므로 구체적인 임계값 $\pm z_{\alpha/2}$, $\pm t_{\alpha/2}(n-1)$을 쓸 수 있다. z분포와 t분포는 0에 대해 좌우대칭이므로 임계값도 좌우대칭이다.

# 1.1 모분산 $\sigma^2$을 알고 있을 때

모분산을 알고 있다면 당연히 z분포를 이용하는 z검정을 한다.

note: 이를 단일표본 z검정(One Sample Z-Test; 单样本z检验)이라고 한다. 표본을 1개 추출했기 때문이다.

검정통계량은 $Z:=\frac{\bar{X}-\mu_0}{\sigma/\sqrt{n}}\sim\mathrm{N}(0,1)$이고, 임계값은 $\pm z_{\alpha/2}$가 된다.

검정통계량의 관측값 $z$가 기각역에 속할 때 영가설을 기각한다. 기각역은 다음과 같다.

$$ \lbrace z:\vert z\vert=\left\vert\frac{\bar x-\mu_0}{\sigma/\sqrt{n}}\right\vert\ge z_{\alpha/2}\rbrace $$

# 1.2 모분산 $\sigma^2$을 모를 때

모분산을 모르면 당연히 t분포를 이용하는 t검정을 한다.

note: 이를 단일표본 t검정(One Sample T-Test; 单样本t检验)이라고 한다. 표본을 1개 추출했기 때문이다.

검정통계량은 $T:=\frac{\bar{X}-\mu_0}{S/\sqrt{n}}\sim t(n-1)$이고, 임계값은 $\pm t_{\alpha/2}(n-1)$이 된다.

검정통계량의 관측값 $t$가 기각역에 속할 때 영가설을 기각한다. 기각역은 다음과 같다.

$$ \lbrace t:\vert t\vert=\left\vert\frac{\bar x-\mu_0}{s/\sqrt{n}}\right\vert\ge t_{\alpha/2}(n-1)\rbrace $$

# 2. 모분산 $\sigma^2$ 관련 가설검정

검정가설은 다음과 같이 설정한다.

$$ H_0:\sigma^2=\sigma_0^2 \\ H_1:\sigma^2\not=\sigma_0^2 $$

모평균 관련 검정과 마찬가지로, 모분산 관련 검정도 적당한 검정통계량을 잡고, 친숙한 표본추출분포를 이용하는 것이 핵심이다.

구간추정에서 보았듯이 분산과 관련된 분포는 카이제곱 분포를 쓰면 편하다. 같은 논리로 분산 관련 검정은 $\chi^2$ 통계량을 쓴다.

카이제곱 통계량은 모평균 $\mu$를 아느냐 모르느냐에 따라 2가지 버전이 있다. 모평균을 안다면, 그것을 활용해서 표본의 2차 중심적률 $\beta_2$를 구하면 되고, 카이제곱 분포의 자유도는 $n$이 된다. 모평균을 모른다면, 그것을 불편추정량인 표본평균 $\bar X$로 대체하고, 표본분산 $S^2$을 구해서 쓴다. 카이제곱 분포의 자유도는 $(n-1)$이 된다.

$$ \begin{split} &\chi^2:=\sum_{i=1}^{n}(\frac{X_i-\mu}{\sigma_0})^2=\frac{n\beta_2}{\sigma_0^2}\sim\chi^2(n) \\[2ex] &\chi^2:=\sum_{i=1}^{n}(\frac{X_i-\bar X}{\sigma_0})^2=\frac{(n-1)S^2}{\sigma_0^2}\sim\chi^2(n-1) \end{split} $$

모분산 자리에 $\sigma^2$ 대신 $\sigma_0^2$가 들어가는데, 어차피 $H_0$이 맞다는 가정을 깔고 들어가므로 상관이 없다.

카이제곱 분포는 z분포나 t분포와 달리 0에 대한 대칭성이 없으므로 임계값도 대칭이 아니다.

# 2.1 모평균 $\mu$를 알고 있을 때

검정통계량은 $\chi^2:=\frac{n\beta_2}{\sigma_0^2}\sim\chi^2(n)$이고, 임계값은 $\chi_{1-\alpha/2}^2(n)$, $\chi_{\alpha/2}^2(n)$이 된다.

검정통계량의 관측값 $\chi^2$이 기각역에 속할 때 영가설을 기각한다. 기각역은 다음과 같다. 카이제곱분포의 지지집합이 $(0,\infty)$라는 사실을 기억하자.

$$ (0,\chi^2_{1-\alpha/2}(n))\cup(\chi^2_{\alpha/2}(n),\infty) $$

# 2.2 모평균 $\mu$를 모를 때

검정통계량은 $\chi^2:=\frac{(n-1)S^2}{\sigma_0^2}\sim\chi^2(n-1)$이고, 임계값은 $\chi_{1-\alpha/2}^2(n-1)$, $\chi_{\alpha/2}^2(n-1)$이 된다.

검정통계량의 관측값 $k$가 기각역에 속할 때 영가설을 기각한다. 기각역은 다음과 같다. 카이제곱분포의 지지집합이 $(0,\infty)$라는 사실을 기억하자.

$$ (0,\chi^2_{1-\alpha/2}(n-1))\cup(\chi^2_{\alpha/2}(n-1),\infty) $$

# 3. 구간추정과 가설검정의 유사성

가설검정과 관련된 위 논의를 보면 구간추정과 매우 비슷하다. 적당한 검정통계량을 설정하는 것은 구간추정에서 친숙한 표본추출분포를 이용하는 것과 비슷하고, 분위수를 이용해서 임계값을 설정하는 것은 신뢰구간의 상한과 하한을 구하는 것과 비슷하다.

결정적으로 가설검정의 유의수준은 $\alpha$인데, 구간추정의 신뢰수준은 $1-\alpha$이다. 임계값을 신뢰구간의 상한과 하한으로 본다면, 영가설의 채택역은 신뢰수준이 $1-\alpha$인 신뢰구간이다. 따라서 가설검정을 할 줄 알면 구간추정을 할 줄 안다고 생각해도 무방하다.

반대의 경우는 조심스럽다. 가설검정은 구간추정과 다르게 구체적인 p값(제1종 오류를 범할 확률)을 요구하기도 하기 때문이다.

본문처럼 p값을 배제하고 단순히 검정통계량의 관측값과 임계값을 비교하는 것에 그친다면, 두 방법은 사실상 같은 것이라고 볼 수 있을 것이다.

예를 들어 양측 단일표본 z검정의 $H_0$ 채택역은

$$ \lbrace z:\vert z\vert=\left\vert\frac{\bar x-\mu_0}{\sigma/\sqrt{n}}\right\vert< z_{\alpha/2}\rbrace $$

인데, $\mu_0$에 대해 정리하면 신뢰수준 $1-\alpha$인 $\mu_0$의 양측 신뢰구간을 얻는다. 가설검정은 $H_0:\mu=\mu_0$이 맞다는 가정하에 이루어지므로, $\mu_0$의 신뢰구간은 곧 $\mu$의 신뢰구간이다.

$$ \lbrace \mu_0:\bar{x}-\frac{\sigma}{\sqrt{n}}z_{\alpha/2}<\mu_0<\bar{x}+\frac{\sigma}{\sqrt{n}}z_{\alpha/2}\rbrace $$

결국 가설검정은 어떤 모수에 대해 가설을 세우고, 그것이 맞다고 가정하며 논의를 진행하다가 오류가 발견되면 그 가설의 부정이 참이라고 생각하는 귀류법의 형태인 반면, 구간추정은 그런 가정없이 순차적으로 논의를 진행한다는 차이가 있다.

'확률론과 수리통계' 카테고리의 다른 글

t검정과 p값에 대해  (2) 2023.03.11
두 정규분포 모집단의 가설검정  (0) 2023.03.10
가설검정 개념정리  (0) 2023.03.08
F분포  (0) 2023.03.07
두 정규분포 모집단의 구간추정  (0) 2023.03.06