본문 바로가기

확률론과 수리통계

검정력, 적당한 표본의 크기

# 검정력

지난 글에서 논의했듯이 옳은 영가설을 채택할 확률 $1-\alpha$도 중요하지만, 틀린 영가설을 기각할 확률 $1-\beta$도 중요하다. 이 확률을 검정력(Power of a Test; 检验功效)이라고 하며, 통계적 검정이 얼마나 틀린 영가설을 잘 기각해 내느냐를 측정한다. 쉽게 말해 있는 차이를 놓치지 않고 얼마나 잘 잡아내는지를 계량하는 확률이다.

이 그림을 다시 보면, 다른 조건이 변하지 않을 때 검정력에 영향을 주는 요소를 찾아낼 수 있다.

(1) 제1종 오류의 발생률 $\alpha$: 지난 글에서 논의한 두 가지 오류의 trade-off 관계다. 임계값 $z_\alpha$를 왼쪽으로 이동시켜 $\alpha$를 늘리는 대신, $\beta$를 줄일 수 있다.

(2) 두 분포간 차이 $\delta:=\mu_1-\mu_0$: $\delta$가 커질 수록, 즉 두 분포가 멀어질 수록 $\beta$가 감소하고, 검정력 $1-\beta$는 증가한다.

# 검정력 함수, 검정력 곡선

만약 $\alpha$가 고정이면, 두 분포간 차이 $\delta$가 검정력을 결정한다. 직관적으로 생각했을 때 검정력은 있는 차이를 얼마나 잘 찾아내는지를 계량하므로 $\delta$가 검정력을 결정하는 것은 타당하다.

따라서 검정력 함수 $\mathrm{Power}(\delta):=1-\beta(\delta)$를 정의하고 검정력 곡선(Power Curve; 功效曲线)을 그린다.

검정력 $\mathrm{Power}(\delta)$는 $\delta$의 단조 증가함수이며, $\delta\to0$일 때 $\mathrm{Power}\to\alpha$이다. $\mu_1\not=\mu_0$이므로 $\delta\not=0$이지만, 차이를 0에 가깝게 줄인다면 검정력도 $\alpha$에 가깝게 줄어든다. 그리고 $\delta\to\infty$일 때 $\mathrm{Power}\to1$이다. 분포간 차이가 클 수록 $\beta$가 감소하지만, 정규분포의 꼬리가 무한히 길기 때문에 $\beta=0$일 수는 없다. 따라서 검정력 $1-\beta(\delta)$도 1일 수는 없지만 1에 가까워진다.

한편, 검정력의 함수식을 다음과 같이 구할 수 있다.

$$ \begin{split} \mathrm{Power}:=1-\beta&=P(H_0기각\mid H_0거짓)=P(\frac{\bar X-\mu_0}{\sigma/\sqrt{n}}>z_{\alpha}\mid\mu=\mu_1) \\ &=P(\frac{\bar X-\mu_0}{\sigma/\sqrt{n}}-\frac{\mu}{\sigma/\sqrt{n}}>z_\alpha-\frac{\mu}{\sigma/\sqrt{n}}\mid\mu=\mu_1) \\ &=P(\frac{\bar X-\mu}{\sigma/\sqrt{n}}>z_\alpha-\frac{\mu-\mu_0}{\sigma/\sqrt{n}}\mid\mu=\mu_1) \\ &=P(Z>z_\alpha-\frac{\delta}{\sigma/\sqrt{n}}) \\ &=\int_{z_\alpha-\frac{\delta}{\sigma/\sqrt{n}}}^{\infty}f_Z(z)\space dz \end{split} $$

식에서 검정력은 $\alpha$의 감소함수이며, $\delta$의 증가함수라는 것을 알 수 있고, 지금까지 논의한 것과 일치하는 결과다. 이것 외에도, 검정력은 모집단내 개체간 차이 $\sigma^2$의 감소함수이며, 표본크기 $n$의 증가함수라는 사실도 추가로 알 수 있다.

# 응용: 적당한 표본 크기 설정

표본의 크기 $n$은 검정력에 영향을 주는 요소 중 하나다. 다른 요소 $\alpha$, $\delta$, $\sigma^2$을 모두 주어진 것으로 보고, 검정력을 $\mathrm{Power}(n):=1-\beta(n)$과 같이 표본 크기의 함수로 본다.

어떤 검정법을 쓸 때 최소한의 검정력이 요구된다고 가정하고, 그것을 $1-\beta$라고 하자. 부등식 $1-\beta(n)\ge 1-\beta$를 풀어, 이 조건을 만족하는 표본의 크기 $n$의 범위를 구해보자. 위에서 보았듯이 검정력은 $n$의 증가함수이므로, 검정력이 최소일 때 $n$도 최소이다.

$$ \begin{split} 1-\beta(n)&\ge1-\beta \\ P(Z>z_\alpha-\frac{\delta}{\sigma/\sqrt{n}})&\ge P(Z>z_{1-\beta}) \\ z_\alpha-\frac{\delta}{\sigma/\sqrt{n}}&\le z_{1-\beta} \\ n&\ge(\frac{z_\alpha-z_{1-\beta}}{\delta})^2\sigma^2 \\ n&\ge(\frac{z_\alpha+z_{\beta}}{\delta})^2\sigma^2 \end{split} $$

# 일반화

검정력과 관련된 이상의 논의는 모두 단일표본 우측 z검정을 전제로 하고 있다. 만약 양측 z검정이라면 검정력 곡선은 다음과 같고, 검정력은 $\vert\delta\vert$의 증가함수이다.

한편, 검정력은 다음과 같이 나타낼 수 있는데

$$ \mathrm{Power}=P(\frac{\bar X-\mu_0}{\sigma/\sqrt{n}}>z_{\alpha/2}\lor\frac{\bar X-\mu_0}{\sigma/\sqrt{n}}<-z_{\alpha/2}\mid\mu=\mu_1) $$

하나의 관측값에 대해 사건 $\lbrace\frac{\bar X-\mu_0}{\sigma/\sqrt{n}}>z_{\alpha/2}\rbrace$와 $\lbrace\frac{\bar X-\mu_0}{\sigma/\sqrt{n}}<-z_{\alpha/2}\rbrace$ 둘 중 하나만 일어난다. 따라서 후자가 일어날 확률을 0으로 두면

$$ \mathrm{Power}=P(\frac{\bar X-\mu_0}{\sigma/\sqrt{n}}>z_{\alpha/2}\mid\mu=\mu_1) $$

이 되고, 위에서 했던 것처럼 논의를 진행하면

$$ n\ge(\frac{z_{\alpha/2}+z_{\beta}}{\delta})^2\sigma^2 $$

을 얻는다.

따라서 양측검정은 $\alpha$를 $\alpha/2$로 바꾸기만 하면 된다.

평균을 비교하는 다른 방법인 t검정의 경우도 이와 비슷한 방식으로 논의할 수 있다.