본문 바로가기

확률론과 수리통계

t검정과 p값에 대해

# 평균비교: z검정 대신 t검정을 쓴다

지난 글에서 정규분포를 따르는 모집단의 평균에 관한 가설검정과 서로 독립인 두 모집단의 평균을 비교하는 것에 관한 가설검정을 알아보았다. 모분산을 알 때는 z검정을, 모를 때는 t검정을 썼다.

실제 응용에서는 모분산에 대한 정보가 전혀 없는 것이 대부분이므로 그것의 불편추정량인 표본분산을 사용하고, 따라서 z검정 대신 t검정을 쓰게 된다.

또한, 모집단이 정규분포를 따른다는 정보도 없는 것이 대부분이다. 하지만 표본의 크기를 충분히 크게 한다면, 중심극한정리에 의해 표본평균은 정규분포를 따르고, 큰 수의 법칙에 의해 표본분산은 모분산에 a.s. 수렴한다. 따라서 $T$ 통계량은 z분포 $\mathrm{N}(0,1)=t(\infty)$를 따르게 된다. 이 사실은 t분포의 확률밀도함수가 자유도가 충분히 클 때 z분포의 확률밀도함수와 같아진다는 것을 통해서도 확인할 수 있다.

결국 통계학에서 평균 관련 가설검정은 ‘t검정’이고, 통계 프로그램을 쓴다해도 메뉴에 아예 t검정 밖에 없는 경우도 있다.

# p값이 중요하다

최근 가설검정은 지금까지 논의한 것처럼 검정통계량의 관측값이 기각역에 속하는지 (i.e. 검정통계량의 크기가 임계값의 크기 이상인지)를 논의하기 보다는, 검정통계량의 관측값과 유의확률 $p$를 병기하는 경우가 훨씬 많다.

예시 1: “집단A의 평균은 집단B 보다 유의미하게 컸다. ($t_{0.05}(31)=1.234$, $p=0.009$)”

예시 2: “$\mu_{A}>\mu_B$, $t_{0.05}(31)=1.234\ast\ast$”

제1종 오류를 범할 확률인 유의확률 $p$는 흔히 ‘p값’이라고 하는데, 이 p값을 계산하려면 원래는 검정통계량의 확률밀도함수를 검정통계량의 관찰값부터 극단적인 값까지 적분해야 하고, 손으로 계산하기에는 무리이다. 대신 관측값과 기각역을 계산하고, 기각역에 쓰이는 분위수 같은 것은 미리 작성해둔 표본추출분포표(z분포표, t분포표 등; 분산 관련일 경우 카이제곱분포표, F분포표 등)를 참고해서 근사치를 쓴다.

통계 프로그램의 힘을 빌리면 이 p값을 컴퓨터가 계산해주기 때문에 유의수준 $\alpha$(보통 0.05로 놓는다.)와의 직접비교를 할 수 있고, 관측값이 얼마나 유의미한지(i.e. 유의확률이 구체적으로 얼마나 작은지)까지 파악할 수 있다.

# p해킹

결국 어떤 독립변인이 실제로 작용을 하는지, 집단간 또는 처리간 차이를 만들어내는지 여부는 이 p값에 달려있다. $p<0.05$이면 검정통계량의 관측값에 ‘$\ast$’을 하나 달 수 있고 그때부터 논문이 ok된다.

모든 연구자들에게 p값은 너무나도 중요한 수치가 되었다. 논문이 통과되느냐 마느냐를 결정하는 수치이기 때문이다. 애초에 ‘유의확률’이라는 이름대신 ‘p값’이라는 이름이 더 많이 쓰이는 것도 p값이 너무나도 중요하기 때문이다.

어쩔때는 $p=0.051$같은 정말 아쉬운 수치가 나오기도 하는데, 그럴때는 데이터에서 극단값을 가지는 개체를 삭제하고 다시 프로그램을 돌리면 0.05이하로 떨어지기도 한다. 이것을 ‘p해킹(p-Hacking)’이라면서 연구부정행위로 보는 사람도 있고, ‘극단값 처리’라면서 합리적인 데이터 ‘전처리’과정이라고 하는 사람도 있다.

내가 대학을 다닐때 쓴 졸업논문에서도 이렇게 p값이 애매하게 걸치는 경우가 있었는데, 지도교수와 심사위원이 ‘영가설을 받아들이는 것도 의미있는 결과’라고 했던 것이 기억난다. 어떤 변인에 대해 집단간 차이가 나지 않는것을 밝혀냈다는 것도 의미있는 연구결과라는 뜻이다. 물론 이런 ‘후한 판정’은 어떻게 p값을 구했는지, 데이터를 전부 공개하고 p값의 수리통계학적 의미에 대해 열심히 부연설명한 결과 가능했다.

이런 경우는 흔치 않고 $p>0.05$면 안 받아주는게 대세다. 그래서 p해킹은 많아질 수 밖에 없다. 그러면 어떤 일이 발생할까? 자꾸 없는 것을 있다고 하면, 의료분야에서는 거짓 양성률이 높아지는 것이고, 무고한 환자를 격리하게 된다. 법학분야에서는 무고한 사람을 잡아넣게 된다. 사회과학분야에서는 집단간 차이가 없는데도 있다고 주장해서 각종 갈등과 소모적인 논쟁을 일으킨다.

p해킹을 한 연구자는 그럴듯한 논문 하나 내고 끝이지만, 일반적으로 ‘차이가 있다’는 기존의 통념(영가설)을 깨부수는듯한 연구결과이기 때문에, 대중들에게 더 충격적인 것처럼 다가오며 쉽게 잊혀지지 않는다.

# 제2종 오류의 망각

p값은 제1종 오류를 범할 확률이다. 그런데 p값만 신경쓰다보면 제2종 오류를 범할 확률은 쉽게 잊혀진다. 제1종 오류는 실제로 없는 것을 있다고 할 오류이고, 옳은 영가설을 기각해버리는 오류다. 제2종 오류는 실제로 있는데 없다고 할 오류이고, 틀린 영가설을 채택하는 오류다.

두 오류의 발생확률은 동시에 줄일 수 없다. 대체로 전자가 더 심각한 오류라고 받아들여져 제1종 오류를 더 신경쓰고, 그 결과가 p값에 대한 맹신이다. 그런데 제2종 오류는 덜 심각한 것이지 심각하지 않은 것이 아니다.

두 집단간 차이가 실제로 있고, $p<0.05$라고 나오면 다행이지만, 만약 $p>0.05$라면 거짓인 영가설을 채택하게 되고, 차이가 있는데도 차이가 없다는 판단을 하게 된다. 이런일이 기계의 품질을 검사하는 AI에 발생했다고 하면, 기계가 오작동하는데도 그걸 방치하게 된다. 조직에 어떤 심각한 문제가 있어서 감사를 진행하더라도 문제를 발견하지 못하고 방치하게 된다. 화재경보기가 불이 났는데도 그걸 가만히 보고만 있게 된다.