본문 바로가기

전체 글

(87)
혼동행렬, 신호탐지이론, ROC 곡선 # 혼동행렬 어떤 가설검정법을 사용하든 진양성, 위음성, 위양성, 진음성의 4가지 상황이 발생한다. 4가지 상황과 관련 키워드를 함께 정리했다. 지금까지 논의했던 가설검정에서 제1종 오류와 제2종 오류를 다른 말로 하면 위양성(FP)와 위음성(FN)이고, 제1종 오류의 발생률과 제2종 오류의 발생률은 각각 위양성률(FPR)과 위음성률(FNR)이라고 한다. R은 비율을 뜻하는 Rate의 줄임말이다. 어떤 가설검정법이든 4가지 상황이 발생할 확률 TPR, FNR, FPR, TNR을 계산할 수 있다. 다음과 같이 $2\times2$형태로 이 확률들을 나열한 것을 혼동행렬(Confusion Matrix; 混淆矩阵)이라고 한다. $$ \begin{bmatrix}\mathrm{TPR}&\mathrm{FNR}\\\m..
검정력, 적당한 표본의 크기 # 검정력 지난 글에서 논의했듯이 옳은 영가설을 채택할 확률 $1-\alpha$도 중요하지만, 틀린 영가설을 기각할 확률 $1-\beta$도 중요하다. 이 확률을 검정력(Power of a Test; 检验功效)이라고 하며, 통계적 검정이 얼마나 틀린 영가설을 잘 기각해 내느냐를 측정한다. 쉽게 말해 있는 차이를 놓치지 않고 얼마나 잘 잡아내는지를 계량하는 확률이다. 이 그림을 다시 보면, 다른 조건이 변하지 않을 때 검정력에 영향을 주는 요소를 찾아낼 수 있다. (1) 제1종 오류의 발생률 $\alpha$: 지난 글에서 논의한 두 가지 오류의 trade-off 관계다. 임계값 $z_\alpha$를 왼쪽으로 이동시켜 $\alpha$를 늘리는 대신, $\beta$를 줄일 수 있다. (2) 두 분포간 차이 $..
제1종 오류와 제2종 오류 # $\alpha$오류, $\beta$오류 지금까지 했던 논의를 되돌아보면, 통계적 가설검정법은 제1종 오류의 발생률인 유의확률(=p값) $p$와 제1종 오류의 발생률의 상한선인 유의수준 $\alpha$의 비교가 핵심이다. 구체적인 p값과 유의수준을 비교하거나, 우회적으로 관측값과 임계값을 비교하는 방법을 쓰거나, 결국 핵심은 제1종 오류, 즉, 옳은 영가설을 기각할 오류의 발생률을 줄이는 것이다. ‘옳은 영가설을 기각’한다는 것은, 다시 말해 ‘실제로 없는 차이를 있다’고 하는 것이다. 그런데 실제 응용측면에서는 ‘틀린 영가설을 채택’할 오류, 즉, ‘실제 있는 차이를 없다’고 하는 오류도 신경써야 한다. 이것을 제2종 오류라고 한다. 제2종 오류는 제1종 오류와 달리 유의확률이나 유의수준 같은 개념이..
단일표본, 독립표본, 대응표본 t검정 지난 글에서 평균비교 관련 가설검정법은 z검정보다는 t검정이 대세임을 결론내렸다. t검정은 상황에 따라서 단일표본, 독립표본, 대응표본의 3가지로 나뉜다. 지금까지 논의했던 방법들을 정리하는 느낌으로 간단히 요약해보자. # 단일표본 t검정 단일표본 t검정(One Sample T test; 单样本t检验)은 모집단 $X$의 평균에 관한 가설검정을 할 때 쓴다. ‘단일표본’이라고 하는 이유는 모집단에서 표본을 1개 뽑고, 그 표본평균과 모집단의 평균을 비교하기 때문이다. 영가설의 기각역을 정리하면 $$ \begin{split} &양측:\left\vert\frac{\bar X-\mu_0}{S/\sqrt{n}}\right\vert>t_{\alpha/2}(n-1) \\[2ex] &좌측:\frac{\bar X-\mu..
t검정과 p값에 대해 # 평균비교: z검정 대신 t검정을 쓴다 지난 글에서 정규분포를 따르는 모집단의 평균에 관한 가설검정과 서로 독립인 두 모집단의 평균을 비교하는 것에 관한 가설검정을 알아보았다. 모분산을 알 때는 z검정을, 모를 때는 t검정을 썼다. 실제 응용에서는 모분산에 대한 정보가 전혀 없는 것이 대부분이므로 그것의 불편추정량인 표본분산을 사용하고, 따라서 z검정 대신 t검정을 쓰게 된다. 또한, 모집단이 정규분포를 따른다는 정보도 없는 것이 대부분이다. 하지만 표본의 크기를 충분히 크게 한다면, 중심극한정리에 의해 표본평균은 정규분포를 따르고, 큰 수의 법칙에 의해 표본분산은 모분산에 a.s. 수렴한다. 따라서 $T$ 통계량은 z분포 $\mathrm{N}(0,1)=t(\infty)$를 따르게 된다. 이 사실은 t..
두 정규분포 모집단의 가설검정 요약: 지난 글에서 논의한 각종 가설검정법은 모두 모집단이 하나일 때 쓰는 방법이다. 이 방법을 쓰면 모집단에서 표본을 추출하고, 표본의 평균과 모집단의 표본을 비교할 수 있다. 이번에는 서로 독립인 두 모집단을 비교할 때 쓰는 가설검정을 알아보자. 친숙한 표본추출분포를 쓰기 위해 두 모집단 모두 정규분포를 따른다는 것을 가정한다. $$ X\perp Y, \\ X\sim\mathrm{N}(\mu_X,\sigma_X^2),\space Y\sim\mathrm{N}(\mu_Y,\sigma_Y^2) $$ 지난 글에서 했던 것처럼 유의수준은 $\alpha$로 두고, 구체적인 p값은 배제하고, 검정통계량의 관찰값과 임계값의 비교를 중심으로 논의한다. # 1. 모평균 차이 $(\mu_X-\mu_Y)$ 관련 가설검정 ..
정규분포 모집단의 가설검정 요약: 지난 글에서 가설검정과 관련된 여러 개념을 정리했다. 이번 글에서는 모집단이 정규분포를 따를 때 쓰는 여러가지 가설검정 방법을 정리한다. 모집단 $X\sim\mathrm{N}(\mu,\sigma^2)$에서 표본 $X_1,\cdots,X_n$을 추출한 후, 모수 $\mu$와 $\sigma^2$에 관련된 가설검정을 진행한다. 편의상 유의수준을 $\alpha$로 두고, 양측검정을 논의한다. 그리고 p값은 배제한다. 구체적인 p값을 구하는 대신 관측값과 임계값을 비교하는 방식으로 진행할 것이다. # 1. 모평균 $\mu$ 관련 가설검정 검정가설은 다음과 같이 설정한다. $$ H_0:\mu=\mu_0 \\ H_1:\mu\not=\mu_0 $$ 가설검정의 핵심은 검정통계량의 관측값과 임계값의 비교이다. 지난..
가설검정 개념정리 # 예시 평균이 $\mu_0$이라고 알려진 모집단이 있다. 이 모집단에서 표본을 추출하여 표본평균을 구했더니 그 값이 $\overline{x}$였고, 표본평균의 값과 모평균의 값을 비교해보니, $\overline{x}>\mu_0$이라고 하자. 표본평균 $\overline{X}$은 모평균 $\mu$의 불편추정량이다. 따라서 표본평균으로 모평균에 대한 통계적 추론을 하는 것은 타당하다고 할 수 있다. 그리고 지금 표본평균의 값이 모평균이라고 알려진 값보다 크다. 그렇다면 $\mu=\mu_0$이라고 잘못 알려진게 아닐까? 실제로는 $\mu>\mu_0$이 아닐까? 결국 모집단을 연구하는 연구자 입장에서 봤을 때, $\mu=\mu_0$이나 $\mu>\mu_0$이나 전부 가설일 뿐이다. 모집단을 전수조사 할 수 없..