지난 글에서 정규분포 모집단의 구간추정의 기본 논리를 알아봤다. 이번에는 좀더 복잡한 것을 해보자. 실제 응용에서는 모집단이 하나인 것보다 서로 독립인 정규분포 모집단이 2개가 있고, 이 두 모집단의 평균 간 비교, 분산 간 비교를 할 때가 더 많다.
이번 글에서는 모집단 X∼N(μX,σ2X)에서 표본 X1,⋯,XnX를 추출하고, 이와 독립인 또 다른 모집단 Y∼N(μY,σ2Y)에서 표본 Y1,⋯,YnY를 추출함을 가정한다.
# 1. 모평균 차이 (μX−μY)의 구간추정
# 1.1 σ2X, σ2Y를 모두 알고 있을 때
바로 표본평균의 차이 ˉX−ˉY를 떠올린다. 다음 사실을 이용하자.
ˉX−ˉY∼N(μX−μY,σ2XnX+σ2YnY)
비교적 친숙한 z분포를 이용할 것이기 때문에 다음과 같이 표준화를 이용해서 변형하자.
(ˉX−ˉY)−(μX−μY)√σ2XnX+σ2YnY∼N(0,1)
지난 글에서 했던 것 그대로 하면, (μX−μY)의 신뢰수준 (1−α)인 양, 단측 신뢰구간을 구할 수 있다.
양측:(ˉX−ˉY±√σ2XnX+σ2YnYzα/2)좌측:(−∞,ˉX−ˉY+√σ2XnX+σ2YnYzα)우측:(ˉX−ˉY−√σ2XnX+σ2YnYzα,∞)
# 1.2 σ2X=σ2Y=σ2이라는 사실을 알고 있을 때
당연히 위 논의는 두 모집단의 분산을 모두 알고 있을 때 성립한다. 그런데 역시나 현실에서 이런 고급 정보를 얻기에는 무리가 있다.
만약 두 모집단의 분산이 구체적으로 어떤 값인지 모르지만, 적어도 두 모집단의 분산이 같다는 사실(σ2X=σ2Y=σ2)을 알 때, t분포를 이용해서 구간추정할 수 있다.
note: 서로 다른 두 집단의 분산이 같다는 것은 수리통계학에서 상당히 중요한 정보로, 등분산성(Homoskedasticity; 方差齐性)이라고 한다.
t분포의 2번째 정의에 의해, t분포를 끼워 맞추려면 z분포를 따르는 확률변수와 카이제곱분포를 따르는 확률변수가 필요하다.
먼저 z분포를 따르는 확률변수를 준비하자.
(ˉX−ˉY)−(μX−μY)σ√1nX+1nY∼N(0,1)
그리고 카이제곱분포를 따르는 확률변수를 준비하자. 이것은 카이제곱분포의 본질이 감마분포라는 것 때문에 가능한 성질이다.
(nX−1)S2Xσ2+(nY−1)S2Yσ2∼χ2(nX+nY−2)
이제 t분포를 따르는 확률변수를 만들자.
(ˉX−ˉY)−(μX−μY)σ√1nX+1nY√((nX−1)S2Xσ2+(nY−1)S2Yσ2)/(nX+nY−2)∼t(nX+nY−2)
식을 보는데 눈이 아프고 복잡하다. 간단히 하기 위해 표본분산의 가중평균을 정의하자.
S2w:=(nX−1)S2X+(nY−1)S2YnX+nY−2
그러면 다음과 같이 간단해진다.
(ˉX−ˉY)−(μX−μY)Sw√1nX+1nY∼t(nX+nY−2)
신뢰수준 (1−α)인 신뢰구간을 정리하면
양측:(ˉX−ˉY±Sw√1nX+1nYtα/2(nX+nY−2))좌측:(−∞,ˉX−ˉY+Sw√1nX+1nYtα(nX+nY−2))우측:(ˉX−ˉY−Sw√1nX+1nYtα(nX+nY−2),∞)
# 1.3 σ2X, σ2Y에 대해 아무런 정보가 없을 때
등분산 가정마저 성립하지 않는, 이런 경우가 대부분이다. 이 경우는 표본의 크기를 충분히 크게 하고(보통 30이상이면 받아준다.), 중심극한정리와 큰 수의 법칙을 믿는 수 밖에 없다.
먼저 모분산 σ2X, σ2Y을 표본분산 S2X, S2Y으로 대체한다. 그러면 원칙적으로는 t분포를 써야 되겠지만 중심극한정리와 큰 수의 법칙에 의해 t분포는 z분포에 분포수렴한다. (t분포 참조.)
따라서 신뢰수준 (1−α)인 근사적인 신뢰구간을 얻는다. 정리하면 다음과 같다.
양측:(ˉX−ˉY±√S2XnX+S2YnYzα/2)좌측:(−∞,ˉX−ˉY+√S2XnX+S2YnYzα)우측:(ˉX−ˉY−√S2XnX+S2YnYzα,∞)
# 2. 모분산 비 σ2X/σ2Y의 구간추정
# 2.1 μX, μY를 모를 때
모분산의 비교에 관한 구간추정은 모평균과 달리 뺄셈이 아니라 나눗셈을 이용한다. 그 이유는
S2X/σ2XS2Y/σ2Y=(nX−1)S2Xσ2X/(nX−1)(nY−1)S2Yσ2Y/(nY−1)∼F(nX−1,nY−1)
라는 사실 덕분에 F분포를 이용하면 되기 때문이다. (F분포 참조.)
F분포는 0에 대해 대칭이 아니기 때문에 신뢰수준은 다음과 같이 생각한다.
P(F1−α/2(nX−1,nY−1)<S2X/σ2XS2Y/σ2Y<Fα/2(nX−1,nY−1))=1−α
한편, F분포의 분위수는 독특한 성질을 가지고 있다.
F1−α(n1,n2)=1Fα(n2,n1)
따라서 다음과 같이 변형된다. 계산을 간편히하기 위해 1−α/2 대신 α/2로 통일하는 것이다. 역수를 취하고 자유도의 자리를 바꾼다.
P(1Fα/2(nY−1,nX−1)<S2X/σ2XS2Y/σ2Y<Fα/2(nX−1,nY−1))=1−α
이를 변형해서 모분산의 비 σ2X/σ2Y를 주인공으로 만들자.
P(S2XS2Y1Fα/2(nX−1,nY−1)<σ2Xσ2Y<S2XS2YFα/2(nY−1,nX−1))=1−α
따라서 신뢰구간을 정리하면
양측:(S2XS2Y1Fα/2(nX−1,nY−1),S2XS2YFα/2(nY−1,nX−1))좌측:(−∞,S2XS2YFα(nY−1,nX−1))우측:(S2XS2Y1Fα(nX−1,nY−1),∞)
# 2.2 μX, μY를 알고 있을 때
이런 경우는 드물지만 이론상 가능하다. 카이제곱 검정과 마찬가지로, 표본분산대신 표본의 2차 중심적률 β2을 쓰면 된다. 그 결과 F분포의 자유도가 바뀐다.
(β2)X/σ2X(β2)Y/σ2Y=nX(β2)Xσ2X/nXnY(β2)Yσ2Y/nY=χ2nX/nXχ2nY/nY∼F(nX,nY)
이므로 신뢰구간은
양측:((β2)X(β2)Y1Fα/2(nX,nY),(β2)X(β2)YFα/2(nY,nX))좌측:(−∞,(β2)X(β2)YFα(nY,nX))우측:((β2)X(β2)Y1Fα(nX,nY),∞)
'Mathematics' 카테고리의 다른 글
가설검정 개념정리 (0) | 2023.03.08 |
---|---|
F분포 (0) | 2023.03.07 |
구간추정 실제 예시 (0) | 2023.03.05 |
정규분포 모집단의 구간추정 (0) | 2023.03.04 |
구간추정 (0) | 2023.03.03 |