본문 바로가기

전체 글

(87)
F분포 # 용도, 정의 정규분포의 자손들인 z분포, 카이제곱분포, t분포는 모두 구간추정과 가설검정에 이용되는 분포다. z분포와 t분포는 모평균과 관련해서, 카이제곱분포는 모분산과 관련해서 이용된다. t분포 평균과 관련되었지만 분산을 모를때 쓰며, z분포와 카이제곱분포를 이용해서 만든다. 단일 모평균이 아닌 모평균의 차이와 관련해서도 이 3가지 분포가 등장한다. 모분산의 비와 관련해서는 새로운 분포가 필요한데 그것이 바로 F분포다. F분포는 분산의 비와 관련된 분포이며, 분산은 카이제곱분포와 관련있으므로, F분포를 따르는 확률변수($F$ 통계량)는 서로 독립이며 두 카이제곱분포를 따르는 확률변수의 비로 이루어진다. note: F분포에 카이제곱분포가 들어가는 이상, F분포와 관련된 구간추정과 검정에서 모집단은 정..
두 정규분포 모집단의 구간추정 지난 글에서 정규분포 모집단의 구간추정의 기본 논리를 알아봤다. 이번에는 좀더 복잡한 것을 해보자. 실제 응용에서는 모집단이 하나인 것보다 서로 독립인 정규분포 모집단이 2개가 있고, 이 두 모집단의 평균 간 비교, 분산 간 비교를 할 때가 더 많다. 이번 글에서는 모집단 $X\sim\mathrm{N}(\mu_X,\sigma_X^2)$에서 표본 $X_1,\cdots,X_{n_X}$를 추출하고, 이와 독립인 또 다른 모집단 $Y\sim\mathrm{N}(\mu_Y,\sigma_Y^2)$에서 표본 $Y_1,\cdots,Y_{n_Y}$를 추출함을 가정한다. # 1. 모평균 차이 $(\mu_X-\mu_Y)$의 구간추정 # 1.1 $\sigma_X^2$, $\sigma_Y^2$를 모두 알고 있을 때 바로 표본평균..
구간추정 실제 예시 뉴스를 보면 이런 기사를 접할 수 있다. “ㅇㅇ업체가 지난달 ㅇㅇ일과 이달 ㅇ일 전국 ㅇㅇ세 이상 1000명을 대상으로 진행한 ㅇㅇ월 ㅇㅇ주 조사에서 ㅇㅇ정당의 지지율은 39%로 집계됐다. (95% 신뢰수준에 표본오차 ±3.1%포인트)” 이를 수리통계학의 언어로 옮기면 “모집단 $X\sim\mathrm{Bern}(p)$에서 크기가 1000인 단순무작위표본 $X_1,\cdots,X_{1000}$을 추출했다. 모수 $p$를 추정하기 위해, 표본평균을 계산한 결과 $\bar{X}=0.39$였다. 신뢰수준 $0.95$인 신뢰구간을 구하면 $(\underline{p},\overline{p})=(0.39\pm0.031\times1.96)$이다.” 지난 글에서 논의한 구간추정의 지식을 이용해서 정말 그런지 자세히 알..
정규분포 모집단의 구간추정 실제로 구간추정이 어떻게 이루어지는지 알아보기 위해, 모집단 $X\sim\mathrm{N}(\mu,\sigma^2)$에서 표본 $X_1,\cdots,X_n$을 추출한 후, 모수 $\mu$와 $\sigma^2$을 구간추정법으로 추정해보자. # 1. 모평균 $\mu$의 구간추정 # 1.1 모분산 $\sigma^2$을 알고 있을 때 표본평균 $\bar{X}$는 모평균 $\mu$의 불편추정량이므로 추정량으로 삼기에 충분하다. 다만 지금 하려는 것은 구간추정이므로, 다음과 같은 확률이 매우 클 것이라고 생각해보자. $$ P(\bar X-k
구간추정 지난 글에서 논의한 적률 추정법과 최대가능도 추정법은 모두 점추정(Point Estimation; 点估计)의 방법이다. 좋은 추정량의 3가지 기준인 불편성, 효율성, 일치성도 점추정에서 논의되는 개념이다. 점추정은 합리적인 방법이지만 모수를 추정한답시고 특정 수치(점)를 콕 집어서 ‘이거야!’라고 단언하는 것이 부담스러울수가 있다. 이를 보완하려고 하는 방법이 바로 구간추정(Interval Estimation; 区间估计)이다. ‘이거야!’ 대신 ‘이 근처야!’라고 하는 것이다. 정확히는 ‘이 근처에 있지 않을 확률이 매우 낮아!’라고 하는 것이다. 다시 말해 모수 $\theta$가 특정 구간에 속할 확률을 매우 크게 만드는 것이다. 다음과 같은 확률을 생각해보자. $$ P(\underline\theta
베셀 보정, 표본분산의 분모 베셀 보정(Bessel’s Correction; 贝塞尔校正)은 모분산 $\sigma^2$의 추정량으로 표본 2차 중심적률 $$ B_2:=\frac{1}{n}\sum_{i=1}^{n}(X_i-\bar{X})^2 $$ 대신, 표본분산 $$ S^2:=\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2 $$ 을 사용하는 것을 말한다. 두 식을 비교하면, 분자는 같고 분모만 $n$과 $(n-1)$로 다르다. 따라서 ‘$S^2$은 $B_2$의 분모를 $(n-1)$로 보정해준것이다’라고 표현한다. 표본분산의 분모가 $n$이 아니라 $(n-1)$이라는 사실은 통계학에서 큰 논쟁거리 중 하나였다. 이번 글에서는 베셀 보정이 추정량에 어떤 효과를 가져올지 논의해보자. # 편향을 제거함. (모든 분..
크라메르-라오 하한, 피셔 정보 # 크라메르-라오 하한 지난 글에서 모평균의 MVUE를 얻기 위해 라그랑주 승수법을 이용했다. 이번에는 다른 방식으로 접근해보자. 임의의 모수 $\theta$의 불편추정량 $\hat{\theta}$의 분산의 하한을 생각해보자. 이 하한은 크라메르-라오 하한(Cramér-Rao Lower Bound, CRLB; 克拉默-拉奥下界)이라고 부르며, 모든 불편추정량의 분산의 ‘이론상 하한’이다. note: ‘이론상 하한’이라는 말은 불편추정량의 분산이 이 하한값을 가지지 못할 수도 있음을 뜻한다. $a\ge0$일 때, $a=0$이라고 단언할 수 없는 것과 마찬가지다. 따라서 크라메르-라오 하한은 MVUE를 얻기 위한 한 방법일 뿐, 실제로 MVUE의 분산이 크라메르-라오 하한이라고 단정할 수 없다. 불편추정량의 ..
최소분산 불편추정량 지난 글에서 좋은 추정량이 가져야할 3가지 성질에 대해 논의했다. (1) 불편성: 추정량의 기댓값이 모수와 같아야한다. (2) 효율성: 추정량의 분산이 작아야 한다. (3) 일치성: 표본의 크기가 충분히 클 때, 추정량은 모수에 확률수렴해야 한다. 이 3가지 기준 중 비교적 중시되는 것은 불편성과 효율성이다. 어떤 모수를 추정하기 위한 추정량을 생각할 때, 가장 먼저 불편추정량을 생각한다. 그리고 여러 불편추정량을 비교해서 분산이 최소가 되는, 다시 말해 가장 효율적인 불편추정량을 고른다. 이것을 최소분산 불편추정량(Minimum Variance Unbiased Estimator, MVUE; 最小方差无偏估计量)이라고 한다. 지난 글에서 선형예측을 다룰 때, 평균제곱오차를 이용해서 예측의 오차를 나타냈다...