본문 바로가기

확률론과 수리통계

최소분산 불편추정량

지난 글에서 좋은 추정량이 가져야할 3가지 성질에 대해 논의했다. (1) 불편성: 추정량의 기댓값이 모수와 같아야한다. (2) 효율성: 추정량의 분산이 작아야 한다. (3) 일치성: 표본의 크기가 충분히 클 때, 추정량은 모수에 확률수렴해야 한다.

이 3가지 기준 중 비교적 중시되는 것은 불편성과 효율성이다. 어떤 모수를 추정하기 위한 추정량을 생각할 때, 가장 먼저 불편추정량을 생각한다. 그리고 여러 불편추정량을 비교해서 분산이 최소가 되는, 다시 말해 가장 효율적인 불편추정량을 고른다. 이것을 최소분산 불편추정량(Minimum Variance Unbiased Estimator, MVUE; 最小方差无偏估计量)이라고 한다.

지난 글에서 선형예측을 다룰 때, 평균제곱오차를 이용해서 예측의 오차를 나타냈다. 이 개념을 그대로 모수추정에도 적용해보자. 추정량 $\hat{\theta}$의 평균제곱오차를 다음과 같이 정의한다.

$$ \mathrm{MSE}[\hat{\theta}]:=\mathbb{E}[(\hat{\theta}-\theta)^2] $$

이 식을 변형하면 ‘평균제곱오차 = 분산 + 편향^2’이라는 놀라운 결과를 얻을 수 있다.

추정의 MSE가 작을 수록 좋은 추정이다. 그런데 MSE는 추정량의 분산과 편향의 제곱으로 분해할 수 있다. MSE를 작게 하기 위해 먼저 편향을 0으로 만드는 것은 합리적이다. 제곱이 붙어있기 때문이다.

먼저 추정량의 편향을 제거하면, MSE는 추정량의 분산과 같아진다. 추정량의 분산이 작을 수록 효율적인 추정이므로 MVUE는 모든 불편추정량 중 가장 효율적인 추정인 동시에, 추정의 오차 MSE를 최소로 하는 추정량임을 알 수 있다.

# 예시

# 표본평균은 모평균의 MVUE다.

흔히 표본평균 $\overline{X}$을 모평균 $\mu$의 추정량으로 삼는다. $\mathbb{E}[\overline{X}]=\mu$이므로 표본평균은 모평균의 불편추정량인 것은 알 수 있다.

그런데 모평균의 불편추정량은 표본평균 외에도 더 있다. 예를 들면 표본의 가중합 $0.7X_1+0.3X_2$는 모평균의 불편추정량이다. IID $X_1$, $X_2$에 대해, 다음이 성립하기 때문이다.

$$ \mathbb{E}[0.7X_1+0.3X_2]=0.7\mathbb{E}[X_1]+0.3\mathbb{E}[X_2]=0.7\mu+0.3\mu=\mu $$

이것을 일반화 하면, 가중치 $w_i$의 합이 1이되도록 정의한 표본의 가중합은 모두 모평균의 불편추정량임을 알 수 있다.

$$ \mathbb{E}[\sum_{i=1}^nw_iX_i]=\sum_{i=1}^nw_i\mathbb{E}[X_i]=\mathbb{E}[X]\sum_{i=1}^nw_i=\mathbb{E}[X] $$

따라서 표본에 총량이 1인 가중치를 어떻게 배분하는 가에 따라 수많은 불편추정량이 존재한다. 다시 말해 흔히 사용하는 표본평균 $\overline{X}:=\frac{1}{n}\sum_{i=1}^{n} X_i$는 가중치를 공평하게 $1/n$씩 배분한 표본의 가중합이며, 수많은 불편추정량 중 하나일 뿐이다.

이렇게 가중치를 공평하게 배분하는 이유는, 이렇게 했을 때 추정량의 분산이 최소화되기 때문이다. 즉, 임의의 불편추정량 $\sum_{i=1}^nw_iX_i(\sum_{i=1}^nw_i=1)$에 대해, 다음이 성립한다.

$$ \underset{w_i(i=1,\cdots n)}{\arg\min}\mathrm{Var}[\sum_{i=1}^nw_iX_i]=(1/n,\cdots,1/n) $$

이 사실을 보이기 위해, 먼저 표본 가중합의 분산을 가중치의 함수로 나타내자.

$$ g(w_1,\cdots w_n):=\mathrm{Var}[\sum_{i=1}^nw_iX_i]=\sum_{i=1}^nw_i^2\mathrm{Var}[X_i]=\mathrm{Var}[X]\sum_{i=1}^nw_i^2 $$

모분산 $\mathrm{Var}[X]\ge0$인 상수이므로, 함수 $g$를 최소화하는 것은 가중치의 제곱합인 $\sum_{i=1}^nw_i^2$을 최소화하는 것과 같다. 이것을 함수 $h(w_1,\cdots,w_n)$으로 놓자.

지금 해야 할 일은 함수 $h(w_1,\cdots,w_n):=\sum_{i=1}^nw_i^2$을 최소화하는 벡터를 찾는 것이다. 그리고 이 벡터는 제약식 $\sum_{i=1}^nw_i=1$을 만족해야 한다.

제약이 있는 최소화문제이므로 라그랑주 승수법으로 해결해보자.

$$ \mathcal{L}:=\sum_{i=1}^nw_i-1=0, \\[2ex] \left\{ \begin{alignat*}{4} \frac{\partial h}{\partial w_1} &+& \lambda\frac{\partial \mathcal{L}}{\partial w_1} &=& 0 \\ \vdots \\ \frac{\partial h}{\partial w_n} &+&\lambda\frac{\partial \mathcal{L}}{\partial w_n} &=& 0 \end{alignat*} \right. $$

이것을 풀면 $w_1=\cdots=w_n=\frac{1}{n}$을 얻고, 이것이 함수 $h$의 임계점이다. 그리고 함수 $h$가 임계점에서 최소값을 가진다는 것은 쉽게 알 수 있다.

note: 함수 $h$는 이차형식이며, 양의 정부호이기 때문이다. 해당 글 참조.

가중치가 동일할 때, MVUE가 된다는 것은 어떤 의미일까? 표본의 가중합은 불편추정량이므로 평균제곱오차는 100% 분산에 의존한다. 가중합의 분산이 가장 작다는 것은 평균제곱오차가 가장 작다는 것을 의미하며, 추정의 오차가 가장 작다는 것을 의미한다.

단순무작위추출로 표본을 추출했을 때, 표본의 각 개체는 동등한 입장이므로 가중치는 공평하게 배분되어야 한다. 어느 한 개체가 더 많은 가중치를 가질 특별한 이유가 없음에도 불구하고 그런식으로 배분했다면, 추정에는 반드시 오차가 생기게 된다는 것을 의미한다.

지난 글에서 확률변수의 기댓값은 확률을 가중치로 삼는 가중평균임을 논의했다. 그런데 표본평균은 이와 달리 단순 산술평균으로 정의하는데, 그것이 합리적이라는 사실을 밝힌 셈이다.

# 표본평균이 여러개일 때 모평균의 MVUE

모집단 $X$에서 표본을 $k$개 추출하는 경우를 생각해보자. 표본 $i(i=1,\cdots,k)$의 크기를 $n_{i}$로 두고, 표본 $i$의 $j$번째 개체를 $X_{ij}(j=1,\cdots,n_i)$로 표기한다.

이렇게 추출한 모든 표본 $i$에 대해, 표본평균 $\overline{X_i}:=\frac{1}{n_i}\sum_{j=1}^{n_i}X_{ij}$을 정의한다. 쉽게 말해, 다음과 같은 상황이다.

이때, 표본평균의 가중합 $\sum_{i=1}^kw_i\overline{X_i}(\sum_{i=1}^kw_i=1)$은 모평균 $\mathbb{E}[X]$의 불편추정량이며, 가중치가 $w_i=n_i/\sum_{i=1}^kn_i$와 같이 표본 크기의 비율만큼 배분될 때, 모평균의 MVUE가 된다.

증명: 라그랑주 승수법 이용.

이 사실도 단순무작위 방법으로 추출한 여러개의 표본이 동등하다는 사실을 간접적으로 알려주고 있다. 다만, 각 표본의 크기가 $n_i$로 다를 수도 있으므로, ‘상대적인 동등함’ 내지는 ‘데이터의 기여도’를 표본 크기가 전체에서 차지하는 비율로 표현하는 것 뿐이다. 만약 모든 표본의 크기를 $n$으로 통일한다면, 모든 가중치는 $1/k$이 된다.

'확률론과 수리통계' 카테고리의 다른 글

베셀 보정, 표본분산의 분모  (0) 2023.03.02
크라메르-라오 하한, 피셔 정보  (0) 2023.02.28
추정량의 불편성, 효율성, 일치성  (0) 2023.02.23
최대가능도 추정법  (0) 2023.02.21
적률 추정법  (0) 2023.02.21