본문 바로가기

확률론과 수리통계

두 정규분포 모집단의 구간추정

지난 글에서 정규분포 모집단의 구간추정의 기본 논리를 알아봤다. 이번에는 좀더 복잡한 것을 해보자. 실제 응용에서는 모집단이 하나인 것보다 서로 독립인 정규분포 모집단이 2개가 있고, 이 두 모집단의 평균 간 비교, 분산 간 비교를 할 때가 더 많다.

이번 글에서는 모집단 $X\sim\mathrm{N}(\mu_X,\sigma_X^2)$에서 표본 $X_1,\cdots,X_{n_X}$를 추출하고, 이와 독립인 또 다른 모집단 $Y\sim\mathrm{N}(\mu_Y,\sigma_Y^2)$에서 표본 $Y_1,\cdots,Y_{n_Y}$를 추출함을 가정한다.

# 1. 모평균 차이 $(\mu_X-\mu_Y)$의 구간추정

# 1.1 $\sigma_X^2$, $\sigma_Y^2$를 모두 알고 있을 때

바로 표본평균의 차이 $\bar{X}-\bar{Y}$를 떠올린다. 다음 사실을 이용하자.

$$ \bar{X}-\bar{Y}\sim\mathrm{N}(\mu_X-\mu_Y,\frac{\sigma_X^2}{n_X}+\frac{\sigma_Y^2}{n_Y}) $$

비교적 친숙한 z분포를 이용할 것이기 때문에 다음과 같이 표준화를 이용해서 변형하자.

$$ \frac{(\bar{X}-\bar{Y})-(\mu_X-\mu_Y)}{\sqrt{\frac{\sigma_X^2}{n_X}+\frac{\sigma_Y^2}{n_Y}}}\sim\mathrm{N}(0,1) $$

지난 글에서 했던 것 그대로 하면, $(\mu_X-\mu_Y)$의 신뢰수준 $(1-\alpha)$인 양, 단측 신뢰구간을 구할 수 있다.

$$ \begin{split} &양측:(\bar{X}-\bar{Y}\pm\sqrt{\frac{\sigma_X^2}{n_X}+\frac{\sigma_Y^2}{n_Y}}z_{\alpha/2}) \\[2ex] &좌측:(-\infty,\bar{X}-\bar{Y}+\sqrt{\frac{\sigma_X^2}{n_X}+\frac{\sigma_Y^2}{n_Y}}z_{\alpha}) \\[2ex] &우측:(\bar{X}-\bar{Y}-\sqrt{\frac{\sigma_X^2}{n_X}+\frac{\sigma_Y^2}{n_Y}}z_{\alpha},\infty) \end{split} $$

# 1.2 $\sigma_X^2=\sigma_Y^2=\sigma^2$이라는 사실을 알고 있을 때

당연히 위 논의는 두 모집단의 분산을 모두 알고 있을 때 성립한다. 그런데 역시나 현실에서 이런 고급 정보를 얻기에는 무리가 있다.

만약 두 모집단의 분산이 구체적으로 어떤 값인지 모르지만, 적어도 두 모집단의 분산이 같다는 사실($\sigma_X^2=\sigma_Y^2=\sigma^2$)을 알 때, t분포를 이용해서 구간추정할 수 있다.

note: 서로 다른 두 집단의 분산이 같다는 것은 수리통계학에서 상당히 중요한 정보로, 등분산성(Homoskedasticity; 方差齐性)이라고 한다.

t분포의 2번째 정의에 의해, t분포를 끼워 맞추려면 z분포를 따르는 확률변수와 카이제곱분포를 따르는 확률변수가 필요하다.

먼저 z분포를 따르는 확률변수를 준비하자.

$$ \frac{(\bar{X}-\bar{Y})-(\mu_X-\mu_Y)}{\sigma\sqrt{\frac{1}{n_X}+\frac{1}{n_Y}}}\sim\mathrm{N}(0,1) $$

그리고 카이제곱분포를 따르는 확률변수를 준비하자. 이것은 카이제곱분포의 본질이 감마분포라는 것 때문에 가능한 성질이다.

$$ \frac{(n_X-1)S_X^2}{\sigma^2}+\frac{(n_Y-1)S_Y^2}{\sigma^2}\sim\chi^2(n_X+n_Y-2) $$

이제 t분포를 따르는 확률변수를 만들자.

$$ \frac {\frac{(\bar{X}-\bar{Y})-(\mu_X-\mu_Y)}{\sigma\sqrt{\frac{1}{n_X}+\frac{1}{n_Y}}}} {\sqrt{(\frac{(n_X-1)S_X^2}{\sigma^2}+\frac{(n_Y-1)S_Y^2}{\sigma^2})/(n_X+n_Y-2)}}\sim t(n_X+n_Y-2) $$

식을 보는데 눈이 아프고 복잡하다. 간단히 하기 위해 표본분산의 가중평균을 정의하자.

$$ S_w^2:=\frac{(n_X-1)S_X^2+(n_Y-1)S_Y^2}{n_X+n_Y-2} $$

그러면 다음과 같이 간단해진다.

$$ \frac {(\bar{X}-\bar{Y})-(\mu_X-\mu_Y)} {S_w\sqrt{\frac{1}{n_X}+\frac{1}{n_Y}}}\sim t(n_X+n_Y-2) $$

신뢰수준 $(1-\alpha)$인 신뢰구간을 정리하면

$$ \begin{split} &양측:(\bar{X}-\bar{Y}\pm S_w\sqrt{\frac{1}{n_X}+\frac{1}{n_Y}}t_{\alpha/2}(n_X+n_Y-2)) \\[2ex] &좌측:(-\infty,\bar{X}-\bar{Y}+ S_w\sqrt{\frac{1}{n_X}+\frac{1}{n_Y}}t_{\alpha}(n_X+n_Y-2)) \\[2ex] &우측:(\bar{X}-\bar{Y}- S_w\sqrt{\frac{1}{n_X}+\frac{1}{n_Y}}t_{\alpha}(n_X+n_Y-2),\infty) \end{split} $$

# 1.3 $\sigma_X^2$, $\sigma_Y^2$에 대해 아무런 정보가 없을 때

등분산 가정마저 성립하지 않는, 이런 경우가 대부분이다. 이 경우는 표본의 크기를 충분히 크게 하고(보통 30이상이면 받아준다.), 중심극한정리와 큰 수의 법칙을 믿는 수 밖에 없다.

먼저 모분산 $\sigma_X^2$, $\sigma_Y^2$을 표본분산 $S_X^2$, $S_Y^2$으로 대체한다. 그러면 원칙적으로는 t분포를 써야 되겠지만 중심극한정리와 큰 수의 법칙에 의해 t분포는 z분포에 분포수렴한다. (t분포 참조.)

따라서 신뢰수준 $(1-\alpha)$인 근사적인 신뢰구간을 얻는다. 정리하면 다음과 같다.

$$ \begin{split} &양측:(\bar{X}-\bar{Y}\pm\sqrt{\frac{S_X^2}{n_X}+\frac{S_Y^2}{n_Y}}z_{\alpha/2}) \\[2ex] &좌측:(-\infty,\bar{X}-\bar{Y}+\sqrt{\frac{S_X^2}{n_X}+\frac{S_Y^2}{n_Y}}z_{\alpha}) \\[2ex] &우측:(\bar{X}-\bar{Y}-\sqrt{\frac{S_X^2}{n_X}+\frac{S_Y^2}{n_Y}}z_{\alpha},\infty) \end{split} $$

# 2. 모분산 비 $\sigma_X^2/\sigma_Y^2$의 구간추정

# 2.1 $\mu_X$, $\mu_Y$를 모를 때

모분산의 비교에 관한 구간추정은 모평균과 달리 뺄셈이 아니라 나눗셈을 이용한다. 그 이유는

$$ \frac {S_X^2/\sigma_X^2}{S_Y^2/\sigma_Y^2} =\frac {\frac{(n_X-1)S_X^2}{\sigma_X^2}/(n_X-1)} {\frac{(n_Y-1)S_Y^2}{\sigma_Y^2}/(n_Y-1)} \sim F(n_X-1,n_Y-1) $$

라는 사실 덕분에 F분포를 이용하면 되기 때문이다. (F분포 참조.)

F분포는 0에 대해 대칭이 아니기 때문에 신뢰수준은 다음과 같이 생각한다.

$$ P \left( F_{1-\alpha/2}(n_X-1,n_Y-1) < \frac {S_X^2/\sigma_X^2}{S_Y^2/\sigma_Y^2} < F_{\alpha/2}(n_X-1,n_Y-1) \right) =1-\alpha $$

한편, F분포의 분위수는 독특한 성질을 가지고 있다.

$$ F_{1-\alpha}(n_1,n_2)=\frac{1}{F_{\alpha}(n_2,n_1)} $$

따라서 다음과 같이 변형된다. 계산을 간편히하기 위해 $1-\alpha/2$ 대신 $\alpha/2$로 통일하는 것이다. 역수를 취하고 자유도의 자리를 바꾼다.

$$ P \left( \frac{1}{F_{\alpha/2}(n_Y-1,n_X-1)} < \frac {S_X^2/\sigma_X^2}{S_Y^2/\sigma_Y^2} < F_{\alpha/2}(n_X-1,n_Y-1) \right) =1-\alpha $$

이를 변형해서 모분산의 비 $\sigma_X^2/\sigma_Y^2$를 주인공으로 만들자.

$$ P \left( \frac {S_X^2} {S_Y^2} \frac {1} {F_{\alpha/2}(n_X-1,n_Y-1)} < \frac {\sigma_X^2}{\sigma_Y^2} < \frac {S_X^2} {S_Y^2}F_{\alpha/2}(n_Y-1,n_X-1) \right) =1-\alpha $$

따라서 신뢰구간을 정리하면

$$ \begin{split} &양측:(\frac{S_X^2}{S_Y^2}\frac {1}{F_{\alpha/2}(n_X-1,n_Y-1)},\frac{S_X^2}{S_Y^2}F_{\alpha/2}(n_Y-1,n_X-1)) \\[2ex] &좌측:(-\infty,\frac{S_X^2}{S_Y^2}F_{\alpha}(n_Y-1,n_X-1)) \\[2ex] &우측:(\frac{S_X^2}{S_Y^2}\frac {1}{F_{\alpha}(n_X-1,n_Y-1)},\infty) \end{split} $$

# 2.2 $\mu_X$, $\mu_Y$를 알고 있을 때

이런 경우는 드물지만 이론상 가능하다. 카이제곱 검정과 마찬가지로, 표본분산대신 표본의 2차 중심적률 $\beta_2$을 쓰면 된다. 그 결과 F분포의 자유도가 바뀐다.

$$ \frac {(\beta _2) _X/\sigma _X^2}{(\beta _2) _Y/\sigma _Y^2} =\frac {\frac{n _X(\beta _2) _X}{\sigma _X^2}/n _X} {\frac{n _Y(\beta _2) _Y}{\sigma _Y^2}/n _Y}=\frac{\chi _{n _X}^2/n _X}{\chi _{n _Y}^2/n _Y} \sim F(n _X,n _Y) $$

이므로 신뢰구간은

$$ \begin{split} &양측:(\frac{(\beta _2) _X}{(\beta _2) _Y}\frac {1}{F _{\alpha/2}(n _X,n _Y)},\frac{(\beta _2) _X}{(\beta _2) _Y}F _{\alpha/2}(n _Y,n _X)) \\[2ex] &좌측:(-\infty,\frac{(\beta _2) _X}{(\beta _2) _Y}F _{\alpha}(n _Y,n _X)) \\[2ex] &우측:(\frac{(\beta _2) _X}{(\beta _2) _Y}\frac {1}{F _{\alpha}(n _X,n _Y)},\infty) \end{split} $$

'확률론과 수리통계' 카테고리의 다른 글

가설검정 개념정리  (0) 2023.03.08
F분포  (0) 2023.03.07
구간추정 실제 예시  (0) 2023.03.05
정규분포 모집단의 구간추정  (0) 2023.03.04
구간추정  (0) 2023.03.03