본문 바로가기

전체 글

(114)
두 정규분포 모집단의 구간추정 지난 글에서 정규분포 모집단의 구간추정의 기본 논리를 알아봤다. 이번에는 좀더 복잡한 것을 해보자. 실제 응용에서는 모집단이 하나인 것보다 서로 독립인 정규분포 모집단이 2개가 있고, 이 두 모집단의 평균 간 비교, 분산 간 비교를 할 때가 더 많다. 이번 글에서는 모집단 $X\sim\mathrm{N}(\mu_X,\sigma_X^2)$에서 표본 $X_1,\cdots,X_{n_X}$를 추출하고, 이와 독립인 또 다른 모집단 $Y\sim\mathrm{N}(\mu_Y,\sigma_Y^2)$에서 표본 $Y_1,\cdots,Y_{n_Y}$를 추출함을 가정한다. # 1. 모평균 차이 $(\mu_X-\mu_Y)$의 구간추정 # 1.1 $\sigma_X^2$, $\sigma_Y^2$를 모두 알고 있을 때 바로 표본평균..
구간추정 실제 예시 뉴스를 보면 이런 기사를 접할 수 있다. “ㅇㅇ업체가 지난달 ㅇㅇ일과 이달 ㅇ일 전국 ㅇㅇ세 이상 1000명을 대상으로 진행한 ㅇㅇ월 ㅇㅇ주 조사에서 ㅇㅇ정당의 지지율은 39%로 집계됐다. (95% 신뢰수준에 표본오차 ±3.1%포인트)” 이를 수리통계학의 언어로 옮기면 “모집단 $X\sim\mathrm{Bern}(p)$에서 크기가 1000인 단순무작위표본 $X_1,\cdots,X_{1000}$을 추출했다. 모수 $p$를 추정하기 위해, 표본평균을 계산한 결과 $\bar{X}=0.39$였다. 신뢰수준 $0.95$인 신뢰구간을 구하면 $(\underline{p},\overline{p})=(0.39\pm0.031\times1.96)$이다.” 지난 글에서 논의한 구간추정의 지식을 이용해서 정말 그런지 자세히 알..
정규분포 모집단의 구간추정 실제로 구간추정이 어떻게 이루어지는지 알아보기 위해, 모집단 $X\sim\mathrm{N}(\mu,\sigma^2)$에서 표본 $X_1,\cdots,X_n$을 추출한 후, 모수 $\mu$와 $\sigma^2$을 구간추정법으로 추정해보자. # 1. 모평균 $\mu$의 구간추정 # 1.1 모분산 $\sigma^2$을 알고 있을 때 표본평균 $\bar{X}$는 모평균 $\mu$의 불편추정량이므로 추정량으로 삼기에 충분하다. 다만 지금 하려는 것은 구간추정이므로, 다음과 같은 확률이 매우 클 것이라고 생각해보자. $$ P(\bar X-k
구간추정 지난 글에서 논의한 적률 추정법과 최대가능도 추정법은 모두 점추정(Point Estimation; 点估计)의 방법이다. 좋은 추정량의 3가지 기준인 불편성, 효율성, 일치성도 점추정에서 논의되는 개념이다. 점추정은 합리적인 방법이지만 모수를 추정한답시고 특정 수치(점)를 콕 집어서 ‘이거야!’라고 단언하는 것이 부담스러울수가 있다. 이를 보완하려고 하는 방법이 바로 구간추정(Interval Estimation; 区间估计)이다. ‘이거야!’ 대신 ‘이 근처야!’라고 하는 것이다. 정확히는 ‘이 근처에 있지 않을 확률이 매우 낮아!’라고 하는 것이다. 다시 말해 모수 $\theta$가 특정 구간에 속할 확률을 매우 크게 만드는 것이다. 다음과 같은 확률을 생각해보자. $$ P(\underline\theta
베셀 보정, 표본분산의 분모 베셀 보정(Bessel’s Correction; 贝塞尔校正)은 모분산 $\sigma^2$의 추정량으로 표본 2차 중심적률 $$ B_2:=\frac{1}{n}\sum_{i=1}^{n}(X_i-\bar{X})^2 $$ 대신, 표본분산 $$ S^2:=\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2 $$ 을 사용하는 것을 말한다. 두 식을 비교하면, 분자는 같고 분모만 $n$과 $(n-1)$로 다르다. 따라서 ‘$S^2$은 $B_2$의 분모를 $(n-1)$로 보정해준것이다’라고 표현한다. 표본분산의 분모가 $n$이 아니라 $(n-1)$이라는 사실은 통계학에서 큰 논쟁거리 중 하나였다. 이번 글에서는 베셀 보정이 추정량에 어떤 효과를 가져올지 논의해보자. # 편향을 제거함. (모든 분..
크라메르-라오 하한, 피셔 정보 # 크라메르-라오 하한 지난 글에서 모평균의 MVUE를 얻기 위해 라그랑주 승수법을 이용했다. 이번에는 다른 방식으로 접근해보자. 임의의 모수 $\theta$의 불편추정량 $\hat{\theta}$의 분산의 하한을 생각해보자. 이 하한은 크라메르-라오 하한(Cramér-Rao Lower Bound, CRLB; 克拉默-拉奥下界)이라고 부르며, 모든 불편추정량의 분산의 ‘이론상 하한’이다. note: ‘이론상 하한’이라는 말은 불편추정량의 분산이 이 하한값을 가지지 못할 수도 있음을 뜻한다. $a\ge0$일 때, $a=0$이라고 단언할 수 없는 것과 마찬가지다. 따라서 크라메르-라오 하한은 MVUE를 얻기 위한 한 방법일 뿐, 실제로 MVUE의 분산이 크라메르-라오 하한이라고 단정할 수 없다. 불편추정량의 ..
최소분산 불편추정량 지난 글에서 좋은 추정량이 가져야할 3가지 성질에 대해 논의했다. (1) 불편성: 추정량의 기댓값이 모수와 같아야한다. (2) 효율성: 추정량의 분산이 작아야 한다. (3) 일치성: 표본의 크기가 충분히 클 때, 추정량은 모수에 확률수렴해야 한다. 이 3가지 기준 중 비교적 중시되는 것은 불편성과 효율성이다. 어떤 모수를 추정하기 위한 추정량을 생각할 때, 가장 먼저 불편추정량을 생각한다. 그리고 여러 불편추정량을 비교해서 분산이 최소가 되는, 다시 말해 가장 효율적인 불편추정량을 고른다. 이것을 최소분산 불편추정량(Minimum Variance Unbiased Estimator, MVUE; 最小方差无偏估计量)이라고 한다. 지난 글에서 선형예측을 다룰 때, 평균제곱오차를 이용해서 예측의 오차를 나타냈다...
피보나치 수열과 황금비 # 피보나치 수열 피보나치 수열은 다음과 같이 0번째 항과 1번째 항이 각각 0과 1이며, 그 외의 항이 앞의 두 항을 더한 값이 되는 수열이다. $$ \lbrace a_n\rbrace:=0,1,1,2,3,5,8,\cdots $$ 피보나치 수열을 이산적인 값을 갖는 함수로 보고, $n$번째 항의 값을 $f(n)$으로 두자. 다시 말해 $f(0)=0$, $f(1)=1$, $f(2)=1$, $f(3)=2$, $\cdots$와 같이 생각한다. 피보나치 수열의 정의에 의해, 다음이 성립한다. $$ \left\{ \begin{alignat*}{4} f(n+2) &=& f(n+1) &+& f(n) \\ f(n+1) &=& f(n+1) \end{alignat*} \right. $$ 행렬의 언어로 고치면 $$ \beg..
추정량의 불편성, 효율성, 일치성 데이터를 관측 후, 모수를 추정하는 합리적인 방법은 여러가지가 있을 수 있다. 그런데 문제는 서로 다른 방법으로 모수를 추정했을 때, 결과물이 다를 수가 있다. 예를 들어 균등분포 $\mathrm{U}[a,b]$에서 적률 추정량(MME) $\hat{\boldsymbol\theta}_M$과 최대가능도 추정량(MLE) $\hat{\boldsymbol\theta}_L$이 다르다는 것을 확인했다. 계산을 편리하게 하기 위해 $a=0$으로 놓고 $b$만 추정해본다고 하면, 다음과 같다. $$ \begin{split} &\hat{b} _M=2\overline{X} \\ &\hat{b} _L=X _{(n)} \end{split} $$ 두 추정량 모두 합리적이다. MME는 균등분포 구간의 끝을 평균의 2배로 잡고, M..
최대가능도 추정법 #1. 최대가능도 추정법의 원리 치명타 확률이 $p$인 무기로 일정시간 동안 고정된 타깃을 공격한다고 하자. 타깃을 1번 공격하고 치명타가 발생하기를 기대하는 것은 1번의 베르누이 시행과 같다. 타깃을 매번 공격할 때마다, 치명타의 발생 여부는 0 또는 1의 값을 가지는 확률변수이며, 모수가 $p$인 베르누이 분포를 따른다. 공격 종료후 총 피해량을 측정했더니 꽤 높게 나왔다고 하자. 이때, $p$의 값을 높다고 추정하는 것이 합리적이다. $p$의 값이 낮다면, 이만한 피해를 줄 수 없기 때문이다. 반면, 예상보다 낮은 피해량이 측정되었다면 $p$의 값이 낮다고 추정하는 것이 합리적이다. 모수를 추정하는 방법 중 최대가능도 추정법은 바로 이런 원리에 기반한 방법이다. 모집단 $X$로부터 추출한 표본의 관..
적률 추정법 우리가 표본을 추출하는 이유는 표본의 특성을 토대로 모집단의 특성을 추론하기 위해서다. 모평균 $\mu$를 추정하기 위해 표본평균 $\overline{X}$를 계산하는 것이 좋은 예시다. 이때, 표본평균을 모평균의 추정량(Estimator; 估计量)이라고 한다. 추정량은 확률변수다. 추정량의 관측값을 간단히 추정치라고 한다. 이와 비슷하게 모분산 $\sigma^2$을 추정하기 위해 표본분산 $S^2$을 계산할 수도 있다. 이런식으로 모집단의 모수를 추정하기위해 그에 해당하는 통계량을 추정량으로 삼는다. 일반적인 모수를 $\theta$라고 나타내며, 추정량은 $\hat{\theta}$로 나타낸다. 모수가 $\theta$인 모집단 $X$의 분포함수는 $F_X(x; \theta)$로 나타낸다. 추정량 $\ha..
표본평균과 표본분산의 극한 모집단 $X\sim F$에서 크기 $n$인 단순무작위표본 $X_1,\cdots,X_n$을 추출했다고 하자. 모평균 $\mathbb{E}[X]=\mu$, 모분산 $\mathrm{Var}[X]=\sigma^2$이라고 하자. 표본평균 $\overline{X}$와 표본분산 $S^2$의 정의는 다음과 같다. $$ \begin{split} &\overline{X}:=\frac{1}{n}\sum_{i=1}^{n}X_i \\ &S^2:=\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\overline{X})^2 \end{split} $$ 이때, 큰 수의 법칙에 의해 $\overline{X}\overset{\mathrm{a.s.}}{\to}\mu$이고 $S^2\overset{\mathrm{a.s.}}{\to}\..