실제로 구간추정이 어떻게 이루어지는지 알아보기 위해, 모집단 X∼N(μ,σ2)에서 표본 X1,⋯,Xn을 추출한 후, 모수 μ와 σ2을 구간추정법으로 추정해보자.
# 1. 모평균 μ의 구간추정
# 1.1 모분산 σ2을 알고 있을 때
표본평균 ˉX는 모평균 μ의 불편추정량이므로 추정량으로 삼기에 충분하다. 다만 지금 하려는 것은 구간추정이므로, 다음과 같은 확률이 매우 클 것이라고 생각해보자.
P(ˉX−k<μ<ˉX+k)=1−α
다시 말해 먼저 모수 μ의 상한과 하한을 ˉX±k라고 생각하는 것이다. k는 상수이다.
이것을 변형하면
P(−kσ/√n<ˉX−μσ/√n<kσ/√n)=1−α
이 된다. 모집단 X∼N(μ,σ2)이므로 ˉX−μσ/√n∼N(0,1)이다. 한편, z분포는 0을 중심으로 좌우대칭이므로 다음이 성립한다. (z분포, 분위수 참조.)
P(−zα/2<ˉX−μσ/√n<zα/2)=1−α
따라서 k를 구할 수 있다.
kσ/√n=zα/2⟹k=σ√nzα/2
이로써 모수 μ의 신뢰수준 (1−α)인 신뢰구간 (μ_,¯μ)를 구했다.
(μ_,¯μ)=(ˉX−σ√nzα/2,ˉX+σ√nzα/2)=(ˉX±σ√nzα/2)
이 신뢰구간은 양측 신뢰구간이라고 한다. 상한과 하한을 모두 잡기 때문이다. 그런데 어쩔때는 (−∞,¯μ)와 같이 하한만 필요할 수도 있고, (μ_,∞)와 같이 하한만 필요할 수도 있다. 각각 좌측 신뢰구간과 우측 신뢰구간이라고 하며 통틀어 단측 신뢰구간이라고 한다.
모수 μ의 신뢰수준 (1−α)인 양, 단측 신뢰구간을 정리하면 다음과 같다. 단측 신뢰구간에서 더 이상 α/2가 아니라 α임에 주의하자.
양측:(μ_,¯μ)=(ˉX±σ√nzα/2)좌측:(−∞,¯μ)=(−∞,ˉX+σ√nzα)우측:(μ_,∞)=(ˉX−σ√nzα,∞)
특히 양측 신뢰구간에서 σ√nzα/2를 표본추출오차(Sampling Error, SE; 样本误差), 줄여서 표본오차라고 한다. 왜 그럴까? ˉX는 모수 μ의 점추정량이자, 불편추정량이다. 이상적인 상황이라면 μ=ˉX를 기대할 수 있다. 하지만 일부인 표본으로 전체인 모집단을 예측하는 데는 항상 오차가 따라 붙고 결국 μ=ˉX±SE가 되는 것이다.
점추정량은 특정 수치를 콕 집어서 ‘이거야!’라고 단언하는 반면, 신뢰구간은 일정 범위를 설정하고 ‘이 근처야!’라고 보수적으로 표현하는 것이다. 따라서 구간추정은 점추정의 극단적인 면을 보완한다고 할 수 있다.
# 1.2 모분산 σ2을 모를 때
이상의 논의는 모분산 σ2을 알고 있을 때 가능하다. 그런데, 실제 응용에서는 모분산 σ2를 알고 있는 경우가 매우 드물다.
모분산 σ2을 모를 때, 이를 표본분산 S2으로 대체할 수 있다. 표본분산은 모분산의 불편추정량이기 때문이다. t분포의 1번째 정의에 의해 다음이 성립한다. (베셀 보정, t분포 참조.)
ˉX−μS/√n∼t(n−1)
이 사실을 통해, 모분산을 모를 때는 대신 표본분산을 이용하고, z분포 대신 t분포를 이용하면 된다는 것을 알 수 있다. t분포도 0을 중심으로 좌우대칭이다.
모수 μ의 신뢰수준 (1−α)인 양, 단측 신뢰구간을 다시 정리하면 다음과 같다.
양측:(μ_,¯μ)=(ˉX±S√ntα/2(n−1))좌측:(−∞,¯μ)=(−∞,ˉX+S√ntα(n−1))우측:(μ_,∞)=(ˉX−S√ntα(n−1),∞)
이때 표본오차는 S√ntα/2(n−1)이 된다.
# 2. 모분산 σ2의 구간추정
# 2.1 모평균 μ를 알고 있을 때
모평균 μ를 추정하는 데는 표본평균과 관련된 분포인 z분포와 t분포가 쓰였다. 그렇다면 모분산 σ2을 추정하기 위해, 표본분산과 관련된 분포인 카이제곱분포가 등장할 차례다. (카이제곱분포 참조.) 다음 사실을 이용한다.
n∑i=1(Xi−μσ)2∼χ2(n)
위에서 했던 것 처럼 신뢰수준을 카이제곱분포와 연관짓는다.
P(χ21−α/2(n)<n∑i=1(Xi−μσ)2<χ2α/2(n))=1−α
이것을 변형해서 σ2이 주인공이 되도록 만든다.
P(∑ni=1(Xi−μ)2χ2α/2(n)<σ2<∑ni=1(Xi−μ)2χ21−α/2(n))=1−α
따라서 모수 σ2의 신뢰수준 (1−α)인 양, 단측 신뢰구간을 정리하면 다음과 같다. 모평균을 사용하는 표본의 2차 중심적률을 β2:=1n∑ni=1(Xi−μ)2으로 나타내자.
양측:(σ_2,¯σ2)=(nβ2χ2α/2(n),nβ2χ21−α/2(n))좌측:(−∞,¯σ2)=(−∞,nβ2χ21−α(n))우측:(σ_2,∞)=(nβ2χ2α(n),∞)
# 2.2 모평균 μ를 모를 때
당연히 이 논의는 모평균 μ를 알고 있을 때 가능한 것이고, 실제 응용에서는 모평균을 아는 경우는 드물기 때문에 μ를 표본평균 ˉX로 대체하게 된다. 표본평균은 모평균의 불편추정량이므로 이는 합리적이다.
μ를 표본평균 ˉX으로 대체하면, 통계량
n∑i=1(Xi−μ)2=n⋅1nn∑i=1(Xi−μ)2=nβ2
대신, 다음과 같은 통계량을 사용하게 된다.
n∑i=1(Xi−ˉX)2=(n−1)⋅1n−1n∑i=1(Xi−ˉX)2=(n−1)S2
그러면 다음과 같은 사실을 이용해서 신뢰구간을 새롭게 구해보자. (‘표본분산의 분포’의 이해와 증명 참조.)
(n−1)S2σ2∼χ2(n−1)
양측:(σ_2,¯σ2)=((n−1)S2χ2α/2(n−1),(n−1)S2χ21−α/2(n−1))좌측:(−∞,¯σ2)=(−∞,(n−1)S2χ21−α(n−1))우측:(σ_2,∞)=((n−1)S2χ2α(n−1),∞)
# 핵심요약
(1) 모평균 μ의 구간추정에서 그것의 불편추정량인 표본평균 ˉX를 떠올리고, 표본평균과 관련된 분포인 z분포와 t분포를 이용했다.
(2) 모분산 σ2의 구간추정에서 그것의 불편추정량인 β2와 S2을 떠올리고, 이와 관련된 분포인 카이제곱분포를 이용했다.
(3) 결국 구간추정의 핵심은 추정하려는 모수를 이미 친숙한 표본추출분포에 잘 끼워맞추는 것이다. 그렇게 해서 상한과 하한을 친숙한 분포의 분위수와 통계량의 조합으로 나타낸다.
(4) 양측일 때는 α/2, 단측일 때는 α를 쓴다.
(5) 모평균 관련 구간추정에서 상한과 하한은 점추정량 ±표본오차의 형태로 나타났다. 따라서 구간추정은 점추정의 보완적인 방법이다.
'Mathematics' 카테고리의 다른 글
두 정규분포 모집단의 구간추정 (0) | 2023.03.06 |
---|---|
구간추정 실제 예시 (0) | 2023.03.05 |
구간추정 (0) | 2023.03.03 |
베셀 보정, 표본분산의 분모 (0) | 2023.03.02 |
크라메르-라오 하한, 피셔 정보 (0) | 2023.02.28 |