뉴스를 보면 이런 기사를 접할 수 있다.
“ㅇㅇ업체가 지난달 ㅇㅇ일과 이달 ㅇ일 전국 ㅇㅇ세 이상 1000명을 대상으로 진행한 ㅇㅇ월 ㅇㅇ주 조사에서 ㅇㅇ정당의 지지율은 39%로 집계됐다. (95% 신뢰수준에 표본오차 ±3.1%포인트)”
이를 수리통계학의 언어로 옮기면
“모집단 $X\sim\mathrm{Bern}(p)$에서 크기가 1000인 단순무작위표본 $X_1,\cdots,X_{1000}$을 추출했다. 모수 $p$를 추정하기 위해, 표본평균을 계산한 결과 $\bar{X}=0.39$였다. 신뢰수준 $0.95$인 신뢰구간을 구하면 $(\underline{p},\overline{p})=(0.39\pm0.031\times1.96)$이다.”
지난 글에서 논의한 구간추정의 지식을 이용해서 정말 그런지 자세히 알아보자.
# 모집단의 설정
지금 하려는 것은 ㅇㅇ국가의 ㅇㅇ세 이상인 국민 전체에서 ㅇㅇ정당의 지지율 $p$를 추정하는 것이다. 설문조사의 질문은 “ㅇㅇ정당을 지지하십니까?”이고, 대답은 “예/아니오”로 설정할 것이다.
임의의 ㅇㅇ세 이상인 국민 한명이 위 조사에서 $p$의 확률로 “예/아니오”라고 대답하는 것을 베르누이 확률변수 $X$로 놓을 수 있다. “예”는 “$X=1$”, “아니오”는 “$X=0$”으로 코딩하면, 국민 전체의 대답은 $X\sim\mathrm{Bern}(p)$이다.
모집단 $X\sim\mathrm{Bern}(p)$이므로 표본의 개체 $X_i\sim\mathrm{Bern}(p)$이다.
# 점추정량 설정
베르누이 분포에서 $\mu=p$이기 때문에, $p$를 추정하는 문제는 모평균을 추정하는 문제와 같다. 따라서 모평균의 불편추정량인 표본평균 $\bar X$를 $p$의 점추정량 $\hat{p}$으로 생각하게 된다.
지금 크기 1000인 표본을 추출하여 표본평균을 계산한 결과가 다음과 같다.
$$ \hat{p}=\bar{X}=0.39 $$
# 적당한 표본추출분포 설정
구간추정을 하기 위해 표본평균과 관련된 친숙한 분포가 필요하다. 지금 모집단은 정규분포를 따르지 않지만, 대신 표본의 크기 $n=1000$이 충분히 크므로, 중심극한정리가 성립한다.
지금 모분산 $\sigma^2=p(1-p)$에 대해 아무런 정보가 없다. 그러면 표본분산 $S^2$을 써야 하는데, 표본의 크기 $n=1000$이 충분히 크므로 큰 수의 법칙에 의해 표본분산은 모분산에 확률수렴한다.
따라서 베르누이 분포 모집단 구간추정을 하기 위해 z분포를 이용할 수 있으며, 표본분산으로 모분산을 대체할 수 있다.
# 신뢰수준에 맞는 신뢰구간 설정
따라서 $p$의 신뢰수준 $(1-\alpha)$인 표본오차의 근사값은 다음과 같다.
$$ \mathrm{SE}\approx\frac{S}{\sqrt{n}}z_{\alpha/2}=\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}z_{\alpha/2} $$
지금 신뢰수준 $(1-\alpha)=0.95$로 주어져 있다. 이를 통해 유의수준 $\alpha=0.05$로 놓았음을 알 수 있다. $\alpha/2=0.025$가 된다. $z_{0.025}\approx1.96$이고, $\hat{p}=0.39$, $n=1000$이므로 이를 모두 대입하면 표본오차는 다음과 같다.
$$ \mathrm{SE} \approx \sqrt{\frac{0.39\times(1-0.39)}{1000}}\times1.96=0.030 $$
$p$의 신뢰수준 0.95인 신뢰구간은 다음과 같다.
$$ (\underline{p},\overline{p})=(\hat{p}\pm\mathrm{SE})=(0.39\pm0.030) $$
위에서 언급한 표본오차와 조금 차이가 있는데, 보통 표본오차를 최대라고 가정하기 위해(보수적인 판단을 위해), 또는 계산의 편의를 위해 $\hat{p}(1-\hat{p})=0.5\times(1-0.5)$라고 잡기 때문이다. 이 경우는 위에서 언급한 표본오차를 얻는다.
$$ \mathrm{SE} \approx \sqrt{\frac{0.5\times(1-0.5)}{1000}}\times1.96=0.031 $$
# 결론 및 해석
조사 결과 ㅇㅇ정당의 지지율은 $0.39\pm0.030$, 즉 $39\%\pm3\%$이라고 볼 수 있다. 신뢰수준은 95%이므로 똑같은 조사를 100번 실시 했을 때 지지율이 이 범위 밖이라고 나올 횟수는 대략 5번 밖에 없고, 나머지 95회는 모두 이 범위 내의 결과를 얻을 것이다.
ㅁㅁ정당의 지지율이 36%~42%라면, ㅇㅇ정당과 ㅁㅁ정당은 ‘오차범위 내 접전을 벌이고 있다’고 해석할 수 있다. 똑같은 조사를 했을 때 결과가 충분히 바뀔 수 있기 때문이다.
반면, 지지율이 50%인 ㅅㅅ정당은 ㅇㅇ정당보다 ‘확실히 우세’라고 볼 수 있다. 똑같은 조사를 했을 때 결과가 뒤집힐 확률은 5%이하이기 때문이다.
'확률론과 수리통계' 카테고리의 다른 글
F분포 (0) | 2023.03.07 |
---|---|
두 정규분포 모집단의 구간추정 (0) | 2023.03.06 |
정규분포 모집단의 구간추정 (0) | 2023.03.04 |
구간추정 (0) | 2023.03.03 |
베셀 보정, 표본분산의 분모 (0) | 2023.03.02 |