본문 바로가기

확률론과 수리통계

가설검정 개념정리

# 예시

평균이 $\mu_0$이라고 알려진 모집단이 있다. 이 모집단에서 표본을 추출하여 표본평균을 구했더니 그 값이 $\overline{x}$였고, 표본평균의 값과 모평균의 값을 비교해보니, $\overline{x}>\mu_0$이라고 하자.

표본평균 $\overline{X}$은 모평균 $\mu$의 불편추정량이다. 따라서 표본평균으로 모평균에 대한 통계적 추론을 하는 것은 타당하다고 할 수 있다. 그리고 지금 표본평균의 값이 모평균이라고 알려진 값보다 크다. 그렇다면 $\mu=\mu_0$이라고 잘못 알려진게 아닐까? 실제로는 $\mu>\mu_0$이 아닐까?

결국 모집단을 연구하는 연구자 입장에서 봤을 때, $\mu=\mu_0$이나 $\mu>\mu_0$이나 전부 가설일 뿐이다. 모집단을 전수조사 할 수 없고, 그것의 일부인 표본을 통해 통계적 추론을 하기 때문에 모집단의 특징에 대한 서술은 항상 가설이다.

일반적으로, 후자인 $\mu>\mu_0$이 연구자가 지지하는 가설이다. 기존의 통념을 부수기 때문에 새로운 발견이라고 할 수 있기 때문이다. 연구자는 어떤 방법을 써서든지 이 가설이 맞다는 것을 입증하고 싶어한다.

연구자는 $\overline{x}>\mu_0$이라는 사건을 자신의 연구가설을 지지하는 증거로 삼는다. 자신이 열심히 수집한 데이터로 계산해낸 표본평균의 값이 모평균이라고 알려진 값보다 크므로, 실제 모평균은 모평균이라고 알려진 값보다 크다는 것이다.

그런데 어떤 연구자가 이에 대한 반박을 내놓았다고 하자:

“$\overline{x}>\mu_0$이 확실히 맞긴 하네요. 그런데 이건 순전히 우연이 아닐까요? $\overline{X}$는 통계량이자 확률변수인데, 지금 당신이 계산한 값 $\overline{x}$는 이 확률변수가 가질 수 있는 여러 값들 중 하나일 뿐이잖아요. 이번에 추출한 평균의 개체들이 모집단 내에서 비교적 큰 값을 가진 개체로 선택되어서 우연히 발생한 일이 아닐까요?”

# 통계적 유의성, 영가설, 대립가설

이 연구자의 반박은 한마디로 요약해서 “$\overline{x}$와 $\mu_0$의 차이가 있긴 있는데, 그 차이가 통계적으로 유의미한가요?”이다. 표본평균과 모평균의 차이가 우연이라면, 통계적으로 무의미하다는 것이다. 우연이 아닌 차이만이 통계적 유의성(Statistical Significance; 统计显著性)을 가진다.

어떤 차이가 우연이 아니라 통계적 유의성을 가진다는 것을 입증하는 방법이 바로 통계적 가설검정(Hypothesis Test; 假设检验)이다.

지금 두 가지의 가설이 있다. 첫번째 가설은 통념에 입각한 가설인 $\mu=\mu_0$이다. 이를 귀무가설 또는 영가설(Null Hypothesis; 零假设)이라고 하며, $H_0$으로 나타낸다.

$$ H_0:\mu=\mu_0 $$

두번째 가설은 연구자가 지지하는, 통념을 깨부수는 가설인 $\mu>\mu_0$이다. 이 가설은 영가설과 대립한다(양립할 수 없다). 따라서 대립가설(Alternative Hypothesis; 备择假设)이라고 하며, $H_1$로 나타낸다.

$$ H_1:\mu>\mu_0 $$

# 제1종 오류, 유의수준, 유의확률

연구자는 먼저 기존의 통념, 즉 영가설이 옳다고 가정한다. 그런데 데이터를 수집하여 관찰한 결과 영가설을 기각하고 대립가설을 채택할 만한 증거가 발견되었다고 하자. 연구자는 이 증거가 우연히 발견되었을 가능성을 배제해야 한다. 우연한 증거로 인해 참인 영가설을 기각해버리는 것은 심각한 오류이기 때문이다. 이를 제1종 오류(Type 1 Error; 第一类错误)라고 한다. 만약 제1종 오류를 범할 확률이 극히 작다면, 안심하고 영가설을 기각(Reject; 拒绝)하고, 대립가설을 채택(Accept; 接受)할 수 있다.

여기서 어느정도의 확률이 ‘극히 작다’고 표현할지는 연구자와 연구분야마다 다르다. 따라서 연구자는 확률의 상한선 $\alpha$를 정해놓고 그것을 넘지 않으면 ‘극히 작다’라고 여긴다. 함부로 영가설을 기각하면 안 되는 연구분야는 $\alpha=0.01$으로 매우 작다. 반면, 영가설의 기각 기준이 널널한 분야는 $\alpha=0.05$로 둔다. 이 $\alpha$는 영가설 기각여부의 기준이 되며, 매우 중요한 숫자다. 가설검정은 통계적 유의성을 입증하는 방법이므로, $\alpha$를 유의수준(Significance Level; 显著性水平)이라고 한다. 연구자는 제1종 오류의 발생률과 유의수준을 비교하여, 전자가 후자를 넘지 않으면 안심하고 영가설을 기각한다. 제1종 오류의 발생률을 간단히 유의확률(Significance Probability; 显著性概率)이라고 하며, $p$로 나타낸다.

따라서 통계적 가설검정은 항상 유의확률 $p$와 유의수준 $\alpha$의 비교라고 할 수 있다. $p\le\alpha$이면 $H_0$을 기각하고, $H_1$을 채택한다. $H_1$을 채택한다는 것은 통계적으로 유의미한 차이가 있다는 뜻이며, 제1종 오류를 범할 확률이 극히 작다는 뜻이다. 반면, $p>\alpha$이면 $H_0$을 채택한다. $H_0$을 채택한다는 것은 통계적으로 유의미한 차이가 없다는 뜻이며, 제1종 오류를 범할 확률이 비교적 크다는 뜻이다.

note: 다음과 같이 가설검정의 아이디어를 표현하기도 한다: 연구자는 먼저 기존의 통념, 즉 영가설이 옳다고 가정한다. 그런데 데이터를 수집하여 관찰한 결과 영가설이 옳다는 가정하에 발생할 확률이 극히 작은 사건이 발생했다고 하자. 그러면 ‘이런 사건이 발생하다니 참 신기하네~’라고 생각하기 보다는, ‘영가설이 잘못되었다’라고 생각하는 편이 더 합리적이다. 따라서 영가설을 기각하고, 대립가설을 채택해야 한다.

# 검정통계량, 임계값, 기각역, 채택역

이제 수리통계학을 이용해서 가설검정을 실제로 완수해보자. 먼저 영가설과 대립가설을 다음과 같이 나타내자.

$$ H_0:\mu=\mu_0 \\ H_1:\mu>\mu_0 $$

제1종 오류의 발생률, 유의확률의 정의는 다음과 같다.

$$ p:=P(H_0기각\mid H_0참) $$

연구자가 $H_0$을 기각한다면 그것은 $\overline{X}-\mu\ge k$이라는 증거를 발견했기 때문일 것이다. 즉, 데이터를 통해 계산해낸 표본평균과 모평균의 차이가 $k$ 이상인 것이다. 이 증거를 $H_0$이 참이라는 전제하에 발견하면 $H_0$이 참일 때 $H_0$을 기각하게 되므로 제1종 오류를 범한 것이 된다.

따라서 제1종 오류를 범할 확률, i.e. 유의확률을 다음과 같이 부등식을 이용해서 나타낸다.

$$ p=P(\overline{X}-\mu\ge k\mid H_0:\mu=\mu_0)=P(\overline{X}-\mu_0\ge k) $$

이 확률을 계산하려면, 통계량 $\overline{X}-\mu_0$의 분포를 알아야 한다. 이 통계량은 가설검정을 위해 특별히 만든 통계량이기 때문에, 검정통계량(Test Statistic; 检验统计量)이라고 한다.

중심극한정리(CLT)에 의해, 이 검정통계량의 분포는 정규분포를 따를 것이다. 한편, $\mu=\mu_0$이 옳다고 가정하고 있으므로, 이 통계량의 평균은 0이다. 따라서 다음과 같이 대략적인 분포를 그릴 수 있다.

한편, 유의확률의 상한선은 유의수준 $\alpha$다. 통계량 $\overline{X}-\mu_0$의 확률밀도를 $f$, 누적분포를 $F$라고 하면, 분위수의 정의에 의해 $P(\overline{X}-\mu_0\ge k)=\alpha$일 때, $k=F_{\alpha}$가 성립하고, $P(\overline{X}-\mu_0\ge k)<\alpha$이면 $k>F_\alpha$가 성립한다.

따라서 $p\le\alpha$는 $k\ge F_\alpha$와 동치이다. 그림을 보면, $k$는 검정통계량의 관측값이 되며, $k=\overline{x}-\mu_0$이라고 할 수 있다. 한편, $F_\alpha$는 가설검정의 기준이 되는 값으로, 임계값(Critical Value; 临界值)이라고 한다.

다시 말해 유의확률 $p$와 그것의 상한선인 유의수준 $\alpha$를 비교하는 문제를, 검정통계량의 관측값 $k=\overline{x}-\mu_0$와 그것의 하한선인 임계값 $F_{\alpha}$를 비교하는 문제로 치환할 수 있다. 유의확률 $p$의 값을 굳이 적분으로 구하지 않아도, 가설검정을 할 수 있다는 것이다.

그림처럼 검정통계량의 관측값이 임계값 이상이면, 이는 유의확률이 유의수준 이하라는 것을 의미하므로 안심하고 영가설을 기각할 수 있다. 즉, 검정통계량의 관측값이 임계값 이상인 범위 내에서 영가설은 항상 기각된다. 이 범위를 영가설의 기각역(Rejection Region; 拒绝域)이라고 한다. 검정통계량의 관측값이 기각역에 속하면, 안심하고 영가설을 기각할 수 있다. 기각역의 여집합은 채택역(Acceptance Region; 接受域)이라고 한다. 관측값이 이 범위에 들어오면 영가설을 받아들여야만 한다.

# 총정리

통계적 가설검정과 관련된 이상의 논의를 정리하자. 다음은 모두 동치이다.

(1) 영가설 $H_0:\mu=\mu_0$을 기각하며, 대립가설 $H_1:\mu>\mu_0$을 채택한다.

(2) 모수의 값 $\mu_0$과 추정량의 값 $\overline{x}$ 사이에 통계적으로 유의미한 차이가 있다.

(3) 제1종 오류를 범할 확률이 극히 작다.

(4) 유의확률 $p$가 유의수준 $\alpha$ 이하다.

(5) 검정통계량 $\overline{X}-\mu_0$의 관측값 $k$가 임계값 $F_{\alpha}$ 이상이다.

(6) 검정통계량 $\overline{X}-\mu_0$의 관측값 $k$가 기각역 $\lbrace\overline{X}-\mu_0\ge F_{\alpha}\rbrace$에 속한다.

# 단측검정, 양측검정

# 우측검정, 좌측검정

이상의 검정은 영가설 $H_0:\mu=\mu_0$, 대립가설 $H_1:\mu>\mu_0$을 제안한다. 검정과정은 검정통계량의 분포의 오른쪽 꼬리에서 일어난다. 따라서 이런 검정은 우측검정(Right Tailed Test; 右侧检验)이라고 한다.

대립가설을 $H_1:\mu<\mu_0$으로 바꾸면 좌측검정(Left Tailed Test; 左侧检验)이 된다. 이때, 임계값은 $F_{1-\alpha}$로, 기각역은 $\lbrace\overline{X}-\mu_0\le F_{1-\alpha}\rbrace$으로 수정해야 하며, 유의확률은 다음과 같다.

$$ p=P(\overline{X}-\mu_0\le k) $$

한편, 분포가 0을 중심으로 대칭인 경우 왼쪽의 임계값 $F_{1-\alpha}=-F_{\alpha}$가 된다. 따라서 오른쪽 임계값에 마이너스 부호만 붙이면 왼쪽 임계값도 구할 수 있다.

우측검정과 좌측검정을 통틀어 단측검정(One Tailed Test; 单侧检验)이라고 한다.

# 양측검정

그러면 꼬리 양쪽에서 모두 일어나는 양측검정(Two Tailed Test; 双侧检验)을 생각해 볼 수 있다. 이 경우 대립가설으로 $H_1:\mu\not=\mu_0$을 제안한다. 즉, $\mu$와 $\mu_0$ 둘 중 어느쪽이 큰 지는 모르지만, 아무튼 차이가 있다고 하는 것이다.

양측검정의 경우 유의확률은 다음과 같은 식을 통해 계산된다. 식을 보면 ‘좌측이든 우측이든 둘 중 아무거나 하나만 걸려라’라는 느낌이 든다.

$$ p/2=\min(P(\overline{X}-\mu_0\le k),P(\overline{X}-\mu_0\ge k)) $$

유의확률의 상한선은 여전히 유의수준 $\alpha$다. 임계값을 구하기 위해, $p=\alpha$로 놓으면

$$ P(\overline{X}-\mu_0\le F_{1})+P(\overline{X}-\mu_0\ge F_{2})=\alpha $$

두 확률의 합이 $\alpha$가 되는데, 딱히 어느쪽이 크다고 단정할 수 없다. 따라서 $\alpha/2$씩 배분한다.

$$ P(\overline{X}-\mu_0\le F_{1})=P(\overline{X}-\mu_0\ge F_{2})=\alpha/2 $$

분위수의 정의에 의해, 임계값 $F_1=F_{1-\alpha/2}$, $F_2=F_{\alpha/2}$가 된다. 기각역은 다음과 같다.

$$ \lbrace\overline{X}-\mu_0\le F_{1-\alpha/2}\rbrace\cup\lbrace\overline{X}-\mu_0\ge F_{\alpha/2}\rbrace $$

분포가 0을 중심으로 대칭인 경우 왼쪽의 임계값 $F_{1-\alpha/2}=-F_{\alpha/2}$가 되고, 기각역은 다음과 같다.

$$ \lbrace\overline{X}-\mu_0\le -F_{\alpha/2}\rbrace\cup\lbrace\overline{X}-\mu_0\ge F_{\alpha/2}\rbrace =\lbrace\vert\overline{X}-\mu_0\vert\ge F_{\alpha/2}\rbrace $$

유의확률은 다음과 같다.

$$ p=P(\vert \overline X -\mu_0\vert\ge k) $$

# p값

한편, 연구논문에서는 단순히 유의확률 $p$가 유의수준 $\alpha$ 이하라고 보고하기 보다는, 구체적인 유의확률의 값을 제시하는 것이 관례다. 이를 p값(p-Value; p值)이라고 한다. 똑같이 유의수준 0.05범위 내라고 하더라도, p값이 작을 수록 통계적 유의성이 크다고 여겨진다. 제1종 오류를 범할 확률이 그만큼 낮기 때문이다.

우측검정의 경우, p값은 다음과 같이 적분으로 계산된다.

$$ p=\int_{k}^{\infty}f(x)\space dx $$

원래 손으로 계산하기 힘들어서 $p$와 $\alpha$의 비교를 관측값과 임계값의 비교로 전환한 것인데, 요즘은 통계 패키지가 다 계산해주기 때문에 그럴 필요가 없어졌다.

note: 논문에서 p값과 함께 검정통계량의 구체적인 관측값을 같이 보고하라는 학술지도 있다. 이때 $p\le0.05$인 관측값에 $\ast$, $p\le0.01$인 관측값에 $\ast\ast$, $p\le0.001$인 관측값에 $\ast\ast\ast$와 같은 표기를 하기도 한다.

'확률론과 수리통계' 카테고리의 다른 글

두 정규분포 모집단의 가설검정  (0) 2023.03.10
정규분포 모집단의 가설검정  (2) 2023.03.10
F분포  (0) 2023.03.07
두 정규분포 모집단의 구간추정  (0) 2023.03.06
구간추정 실제 예시  (0) 2023.03.05