본문 바로가기

확률론과 수리통계

추정량의 불편성, 효율성, 일치성

데이터를 관측 후, 모수를 추정하는 합리적인 방법은 여러가지가 있을 수 있다. 그런데 문제는 서로 다른 방법으로 모수를 추정했을 때, 결과물이 다를 수가 있다.

예를 들어 균등분포 $\mathrm{U}[a,b]$에서 적률 추정량(MME) $\hat{\boldsymbol\theta}_M$과 최대가능도 추정량(MLE) $\hat{\boldsymbol\theta}_L$이 다르다는 것을 확인했다. 계산을 편리하게 하기 위해 $a=0$으로 놓고 $b$만 추정해본다고 하면, 다음과 같다.

$$ \begin{split} &\hat{b} _M=2\overline{X} \\ &\hat{b} _L=X _{(n)} \end{split} $$

두 추정량 모두 합리적이다. MME는 균등분포 구간의 끝을 평균의 2배로 잡고, MLE는 관찰된 데이터의 최대값으로 잡는다.

실제 응용에서는 어떤 추정량을 써야 하는가가 문제된다. 서로 다른 추정량을 비교하기 위해, 또는 추정량의 좋고 나쁨을 판단하기 위해, 추정량의 여러 성질을 생각하게 된다.

수리통계학에서는 대표적으로 불편성(Unbiasedness; 无偏性), 효율성(Efficiency; 有效性), 일치성(Consistency; 一致性)의 3가지 성질이 있다.

# 불편성

좋은 추정량은 무엇보다도 추정의 오차가 작아야 한다. 모수 $\theta$와 추정량 $\hat{\theta}$이 있다고 할 때, 추정의 오차를 $\hat{\theta}-\theta$이라고 해보자. 이 값이 상수 0이면 정말 좋겠지만, 아쉽게도 추정량은 확률변수이므로 그럴 수는 없다. 관찰된 데이터에 따라 $\hat{\theta}>\theta$일 수 있고, 이때 오차는 $(+)$이다. $\hat{\theta}<\theta$일 때 오차는 $(-)$이다.

그런데 오차의 기댓값 $\mathbb{E}[\hat{\theta}-\theta]=0$은 가능할 수도 있다. $(+)$와 $(-)$의 오차에 평균이라는 개념이 덧씌워지면서, 서로 상쇄되어 0이 된다면 좋을 것이다.

이렇게 $\mathbb{E}[\hat{\theta}-\theta]=0$을 만족하는 추정량을 불편추정량(Unbiased Estimator; 无偏估计量)이라고 한다. ‘불편’은 추정의 편향(Bias; 偏差)이 0인 추정량이다. 다시 말해 추정의 치우침이 없고, 추정이 엇나가지 않는 추정량이다. 한편, 추정의 편향은 다음과 같이 정의되고 계산된다.

$$ \mathrm{Bias}[\hat\theta]:=\mathbb{E}[\hat{\theta}-\theta]=\mathbb{E}[\hat{\theta}]-\theta $$

따라서 불편추정량은 $\mathbb{E}[\hat{\theta}]=\theta$임을 뜻하기도 한다. 즉, $\hat\theta=\theta$는 아니더라도, $\hat\theta$의 기댓값이라도 $\theta$와 일치하기를 바라는 뜻을 담고 있다.

$\hat{b}_M=2\overline{X}$는 $b$의 불편추정량이다. 다음이 성립하기 때문이다.

$$ \mathbb{E}[\hat{b} _M]=\mathbb{E}[2\overline{X}]=2\mathbb{E}[\overline{X}]=2\mathbb{E}[X]=2\cdot\frac{b}{2}=b $$

그러나 $\hat{b} _L=X {(n)}$은 $b$의 불편추정량이 아니다. 확인해보면 알 수 있다. 하지만, $\lim{n\to\infty}\frac{n}{n+1}b=b$이므로, 점근적인(Asymptotic; 渐近) 불편추정량이라고 표현하기도 한다.

$$ \mathbb{E}[\hat{b} _L]=\mathbb{E}[X _{(n)}]=\int _{0}^{b}u\cdot\frac{n}{b^n}u^{n-1}\space du=\frac{n}{n+1}b $$

note: 균등분포 $\mathrm{U}[0,b]$에서 추출한 표본 $X_1,\cdots,X_n$의 순서통계량 $X_{(n)}$의 확률밀도함수는 $f_{(n)}(u)=\frac{n}{b^n}u^{n-1}$이다. (확률변수의 최대, 최소의 분포 또는 순서통계량 참조.)

그리고 불편추정량이 아니라면 불편추정량이 되도록 수정할 수 있다. 다음과 같이 $\hat{b}_L$을 기반으로 새로운 추정량 $\hat{b} _{LC}$를 정의하면 된다. 그러면 기댓값의 선형성에 의해 $\mathbb{E}[\hat{b} _{LC}]=b$임을 쉽게 알 수 있다.

$$ \hat{b} _{LC}:=\frac{n+1}{n}\hat{b} _L=\frac{n+1}{n}X _{(n)} $$

# 효율성

$\hat{b} _M$이나 $\hat{b} _{LC}$나 추정의 편향이 없다는 점에서는 동일하다. 추정량의 불편성만 고려했을 때, 둘 중 어느것을 써도 무방하다.

이제 추정량의 효율성을 고려해보자. 두 추정량에 대해, 분산이 더 작은 추정량을 효율성이 높다고 한다. 분산은 데이터의 흩어진 정도를 나타내는 척도다. 따라서 추정량의 분산이 작다면 추정치의 흩어진 정도가 작고, 더 효율적으로 모수를 추정할 수 있다.

추정량의 분산을 구해보면 다음과 같다.

$$ \begin{split} \mathrm{Var}[\hat{b} _M]&=4\mathrm{Var}[\overline{X}]=4\cdot\frac{\mathrm{Var}[X]}{n}=4\cdot\frac{b^2}{12n}=\frac{b^2}{3n} \\[5ex] \mathrm{Var}[\hat{b} _{LC}]&=(\frac{n+1}{n})^2\mathrm{Var}[X _{(n)}] \\ &=(\frac{n+1}{n})^2(\mathbb{E}[X _{(n)}^2]-\mathbb{E}[X _{(n)}]^2) \\ &=(\frac{n+1}{n})^2(\int _{0}^{b}u^2\cdot \frac{n}{b^n}u^{n-1}\space du-(\frac{n}{n+1}b)^2) \\ &=\frac{b^2}{n^2+2n} \end{split} $$

$n>1$일 때, $3n=n+2n<n^2+2n$이므로 $\mathrm{Var}[\hat{b} _M]>\mathrm{Var}[\hat{b} _{LC}]$이다.

$b$의 적률 추정량은 불편추정량인 반면, 최대가능도 추정량은 편향이 있었다. 그렇다고 해서 최대가능도 추정량을 버리지 않고, 편향이 0이 되도록 조금만 수정하면 적률 추정량보다 효율적인 추정을 할 수 있게 된다.

# 일치성

추정량의 불편성과 효율성은 모두 표본의 크기 $n$이 일정하다는 가정하에 논의되는 개념이다. 불편성과 효율성에 더해, 마지막으로 고려해볼 것은 추정량이 모수에 수렴 여부다. 표본의 크기가 충분히 클 때, 추정량이 모수에 확률수렴하면 좋을 것이다.

다시 말해, $n\to\infty$일 때, 추정량 $\hat{\theta}(n)\overset{P}{\to}\theta$이면 좋을 것이다. 이를 만족하는 $\hat{\theta}$를 $\theta$의 일치추정량이라고 한다. 추정량의 일치성은 다음과 같이 극한의 언어로 나타낼 수 있다. (확률변수의 수렴 참조.)

$$ \forall\epsilon>0:\lim_{n\to\infty}P(\vert\hat{\theta}(n)-\theta\vert<\epsilon)=1 \\ \forall\epsilon>0:\lim_{n\to\infty}P(\vert\hat{\theta}(n)-\theta\vert\ge\epsilon)=0 $$

큰 수의 법칙에 의해, 표본평균은 모평균에 확률수렴한다. 따라서 적률 추정량 $\hat{b} _M=2\overline{X}$가 $b$의 일치추정량인 것은 쉽게 알 수 있다.

그리고 최대가능도 추정량인 $\hat{b} _L=X _{(n)}$도 $b$의 일치추정량이다. 증명할 수 있다.

한편, $n\to\infty$일 때, $\frac{n+1}{n}\to 1$이므로 편향이 0이 되도록 수정한 $\hat{b} _{LC}=\frac{n+1}{n}X _{(n)}$도 $b$의 일치추정량이다.

'확률론과 수리통계' 카테고리의 다른 글

크라메르-라오 하한, 피셔 정보  (0) 2023.02.28
최소분산 불편추정량  (2) 2023.02.27
최대가능도 추정법  (0) 2023.02.21
적률 추정법  (0) 2023.02.21
표본평균과 표본분산의 극한  (0) 2023.02.16