본문 바로가기

확률론과 수리통계

베셀 보정, 표본분산의 분모

베셀 보정(Bessel’s Correction; 贝塞尔校正)은 모분산 $\sigma^2$의 추정량으로 표본 2차 중심적률

$$ B_2:=\frac{1}{n}\sum_{i=1}^{n}(X_i-\bar{X})^2 $$

대신, 표본분산

$$ S^2:=\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2 $$

을 사용하는 것을 말한다.

두 식을 비교하면, 분자는 같고 분모만 $n$과 $(n-1)$로 다르다. 따라서 ‘$S^2$은 $B_2$의 분모를 $(n-1)$로 보정해준것이다’라고 표현한다.

표본분산의 분모가 $n$이 아니라 $(n-1)$이라는 사실은 통계학에서 큰 논쟁거리 중 하나였다. 이번 글에서는 베셀 보정이 추정량에 어떤 효과를 가져올지 논의해보자.

# 편향을 제거함. (모든 분포에서)

지난 글에서 균등분포 $\mathrm{U}[0,b]$에 대해, 모수 $b$의 최대가능도 추정량 $\hat{b} _L=X _{(n)}$은 편향이 있는 추정량임을 밝혔다. 그리고 최대가능도 추정법을 이용하되 편향을 제거하기 위해, 다음과 같이 새로운 추정량을 정의하고, 논의했다.

$$ \hat{b} _{LC}:=\frac{n+1}{n}\hat{b} _L=\frac{n+1}{n}X _{(n)} $$

새로운 추정량 여전히 MLE에 기반한 추정량이며 불편성도 가지게 되었다. 즉, 원조 MLE에 $\frac{n+1}{n}$을 곱하면 편향이 사라진다는 것이다.

베셀 보정을 통해 얻은 $S^2$도 이와 마찬가지로 $B_2$에 $\frac{n}{n-1}$을 곱한 것으로 볼 수 있다. 정말 이렇게 하면 편향이 사라지는지 확인해보자.

먼저 $B_2$는 모분산의 편의추정량이다.

note: $\sum_{i=1}^{n}(X_i-\bar X)^2=\sum_{i=1}^{n}X_i^2-n\bar X^2$은 자주 쓰이므로 공식으로 암기하는 것도 좋을 것 같다.

$\mathbb{E}[B_2]=\frac{n-1}{n}\sigma^2$이므로 $B_2$에 $\frac{n}{n-1}$을 곱한 $S^2:=\frac{n}{n-1}B_2$은 불편추정량이다. 여기서 모집단의 분포에 대해 특별한 가정을 하지 않았다. 분산의 추정량이 모든 분포에서 불편성을 보장받는다는 것은 상당한 이점이다.

# …대신 효율성을 희생함. (정규분포에서)

흔히 모집단의 분포를 정규분포로 가정하는데, 지난 글에서 모집단이 정규분포를 따를 때, 모평균과 모분산의 MLE는 각각 $\bar X$와 $B_2$임을 밝혔다.

정규분포 모분산의 불편추정량의 효율성을 논의하기 위해, 피셔 정보와 크라메르-라오 하한을 구해보자. 모평균을 $\mu$, 모분산을 $\sigma^2=:v$라고 표기하자.

따라서 모분산의 모든 불편추정량의 분산의 이론상 하한은 $\frac{2}{n}\sigma^4$이다. 과연 베셀 보정을 통해 얻은 추정량 $S^2$은 이를 만족할 수 있을까?

결국 베셀 보정을 하면 분산을 최소로 할 수 없다. 즉, 불편성을 보장받는 대신 어느정도의 효율성을 희생한 셈이다. 물론 이때는 모집단이 정규분포를 따른다고 가정하고 논의를 진행했다. 모집단이 다른 분포라면 어떨지 모른다.

# 정규분포에서 베셀 보정이 없다면?

베셀 보정을 쓰지 않고 원조 MLE인 $B_2$를 쓰면 어떨까? 먼저 $\mathrm{Var}[S^2]=\frac{2}{n-1}\sigma^4$에서 $(n-1)$을 $n$으로 바꾸면

$$ \mathrm{Var}[B_2]=\frac{2}{n}\sigma^4=\mathrm{CRLB} $$

이므로, 베셀 보정 전의 $B_2$는 이론상 최대효율을 내고 있다. 한편

$$ \mathbb{E}[B_2]=\frac{n-1}{n}\sigma^2\not=\sigma^2 $$

이므로 추정의 편향은 있다.

다시 말해 베셀 보정으로 표본의 2차 중심적률 대신 표본분산을 쓴다는 것은, 효율성을 희생하고 불편성을 보장받는 것과 마찬가지다. 베셀 보정을 쓰지 않는다면, 불편성을 희생하고 효율성을 보장받을 것이다. 이렇게 불편성과 효율성 사이에서 갈등하는 것을 두고 편향-분산 트레이드오프(Bias-Variance Trade-off; 偏差-方差权衡)라고 한다.

최종 목적은 평균제곱오차(MSE)를 최소화하는 것이므로 보통 편향이 0인것을 선호한다. MSE를 합으로 분해했을 때, 분산과 달리 편향에는 제곱이 붙어있기 때문이다.

$$ \mathrm{MSE}[\hat{\theta}]=\mathrm{Var}[\hat{\theta}]+\mathrm{Bias}[\hat{\theta}]^2 $$

# 분모가 $n$일 때 더 좋은 경우

$B_2$의 문제점은 편향을 가진다는 데 있다. 만약 편향이 없으면 $B_2$가 $S^2$보다 MSE를 줄이는 데 더 유용하다. 모집단이 정규분포일 때, $B_2$의 분산은 CRLB와 같다. 만약 여기에 불편성이 더해지면, 바로 최소분산 불편추정량(MVUE)이 되며, 상당히 유용해질 것이다.

$B_2$가 편향을 가지는 이유는 모분산을 추정하려고 하는데 모평균마저 몰라서 그것을 표본평균 $\bar{X}$로 대체했기 때문이다.

만약 모평균 $\mu$를 알고 있다면, $B_2$ 대신 새로운 추정량 $\beta_2:=\frac{1}{n}\sum_{i=1}^{n}(X_i-\mu)^2$을 쓰는 것이 좋다.

$$ \mathbb{E}[\beta_2]=\mathbb{E}[\frac{1}{n}\sum_{i=1}^{n}(X_i-\mu)^2]=\frac{1}{n}\sum_{i=1}^{n}\mathbb{E}[(X_i-\mu)^2]=\frac{1}{n}\cdot n\sigma^2=\sigma^2 $$

이기 때문이다. 이때는 오히려 베셀 보정이 방해가 된다. 그리고

$$ \begin{split} \mathrm{Var}[\beta_2]&=\mathrm{Var}[\frac{1}{n}\sum_{i=1}^{n}(X_i-\mu)^2]=\frac{1}{n^2}\sum_{i=1}^{n}\mathrm{Var}[(X_i-\mu)^2] \\ &=\frac{1}{n^2}\sum_{i=1}^{n}(\mathbb{E}[(X_i-\mu)^4]-\mathbb{E}[(X_i-\mu)^2]^2)=\frac{2}{n}\sigma^4=\mathrm{CRLB} \end{split} $$

이기 때문에, 분모가 $n$인 $\beta_2:=\frac{1}{n}\sum_{i=1}^{n}(X_i-\mu)^2$는 모분산의 MVUE다. 다시 말해 모집단이 정규분포라는 확신이 있으며, 모평균을 알고 있다면, 분모가 $n$인 추정량이 더 바람직하다.

note: 정규분포에서 $n$이 홀수일때 $\mathbb{E}[(X-\mu)^n]=0$이고 짝수일 때 $\mathbb{E}[(X-\mu)^n]=\sigma^n(n-1)!!$이다. 증명:

# 자유도가 $(n-1)$이라서 분모도 그렇다?

표본분산의 분모가 $n$이 아니라 $(n-1)$이라는 사실은 통계학 초심자를 당황하게 만든다. 표본평균의 분모는 $n$이기 때문이다.

어떤 사람은 단순히 ‘분산의 자유도가 $(n-1)$이라서 그래’라고 대충 넘어갈 수 있겠지만, 이는 불충분하다 못해 베셀 보정의 의의에서 완전히 벗어난 설명이다. 분산의 자유도가 $(n-1)$인 것과 통계량을 $(n-1)$로 나눈다는 것이 대체 무슨 상관이 있단 말인가?

이번 글에서 살펴본 바로는, 표본분산의 분모가 $(n-1)$인 것은 불편성을 보장받기 위해서이고, 그 숫자가 우연히도 표본분산 계산식의 자유도와 같을 뿐이었다. 자유도가 $(n-1)$인 통계량은 표본분산 외에도 많다. 대표적 것이 표본분산과 함께 논의되는 표본 2차 중심적률 $B_2$이다. 하지만 $B_2$의 분모는 $n$이다.

# 표본의 크기가 충분히 크다면

$n\to\infty$인 경우, $\frac{1}{n}\sim\frac{1}{n-1}$이기 때문에 베셀 보정을 하든 말든 큰 상관이 없다. 물론 그렇게 큰 표본을 확보할 수 있는 경우는 드물다.

'확률론과 수리통계' 카테고리의 다른 글

정규분포 모집단의 구간추정  (0) 2023.03.04
구간추정  (0) 2023.03.03
크라메르-라오 하한, 피셔 정보  (0) 2023.02.28
최소분산 불편추정량  (2) 2023.02.27
추정량의 불편성, 효율성, 일치성  (0) 2023.02.23