본문 바로가기

확률론과 수리통계

혼동행렬, 신호탐지이론, ROC 곡선

# 혼동행렬

어떤 가설검정법을 사용하든 진양성, 위음성, 위양성, 진음성의 4가지 상황이 발생한다.

4가지 상황과 관련 키워드를 함께 정리했다. 지금까지 논의했던 가설검정에서 제1종 오류와 제2종 오류를 다른 말로 하면 위양성(FP)와 위음성(FN)이고, 제1종 오류의 발생률과 제2종 오류의 발생률은 각각 위양성률(FPR)과 위음성률(FNR)이라고 한다. R은 비율을 뜻하는 Rate의 줄임말이다.

어떤 가설검정법이든 4가지 상황이 발생할 확률 TPR, FNR, FPR, TNR을 계산할 수 있다. 다음과 같이 $2\times2$형태로 이 확률들을 나열한 것을 혼동행렬(Confusion Matrix; 混淆矩阵)이라고 한다.

$$ \begin{bmatrix}\mathrm{TPR}&\mathrm{FNR}\\\mathrm{FPR}&\mathrm{TNR} \end{bmatrix}=\begin{bmatrix}1-\mathrm{FNR}&\mathrm{FNR}\\\mathrm{FPR}&1-\mathrm{FPR} \end{bmatrix}=\begin{bmatrix}1-\beta&\beta\\\alpha&1-\alpha \end{bmatrix} $$

혼동행렬은 영가설이 옳은지 틀린지 모르는 상황에서 기각여부를 결정하는 상황뿐만 아니라, 의사가 환자가 감염이 됐는지 아닌지 모르는 상황에서 감염여부를 판별하는 상황, 판사가 피고인이 유죄인지 무죄인지 모르는 상황에서 판결을 내리는 상황, 피실험자가 다음 자극이 신호인지 잡음인지 모르는 상태에서 반응하는 상황, AI 판별기가 강아지 사진과 고양이 사진을 판독하는 상황 등 온갖 이진분류(Binary Classification; 二元分类) 상황을 묘사하는 데도 쓰인다.

# 신호탐지이론, ROC 곡선

신호탐지이론(Signal Detective Theory, SDT; 信号检测论)의 표현을 빌려, 통계적 가설검정에서의 $H_0$기반 분포를 잡음(Noise; 噪音), $H_1$기반 분포를 신호(Signal; 信号)라고 하자. ‘잡음’과 ‘신호’는 위의 혼동행렬에서 ‘실제 음성’과 ‘실제 양성’에 대응된다.

ROC(Receiver Operating Characteristic; 接受者操作特征) 곡선은 임의의 분류기의 성능(심리학에서는 피험자나 뉴런의 반응우열)을 알아보는데 쓰인다. ROC 곡선은 다른 조건이 모두 같고 임계값만 변할 때, 점 $(\mathrm{FPR},\mathrm{TPR})$이 $\mathbb{R}^2$에서 그리는 궤적이다. 임계값은 다른 말로 반응역치(Threshold; 阈限) 또는 반응기준(Criterion; 标准)이라고 하며, $c$로 나타낸다.

# 임계값만 변할 때 → ROC 곡선 상의 변화

좌표평면 위의 하나의 점은 하나의 혼동행렬, 즉 한 종류의 분류기에 대응된다. 임계값의 변화는 ROC 곡선 위의 운동으로 나타난다.

주어진 ROC 곡선 위의 모든 점에서 잡음과 신호간 차이가 일정하다는 사실을 알 수 있었다. 만약 임계값을 고정하고 잡음-신호간 차이가 변한다면, 다음과 같이 ROC 곡선 자체의 변형이 일어난다. 잡음-신호간 차이는 구분도(Difference; 区分度)라고 하며, $\delta$로 나타낸다. 구분도가 높을수록 분류기가 신호와 잡음을 잘 구별한다.

# 구분도만 변할 때 → ROC 곡선 자체의 변화

(1) 구분도가 0일 때, ROC 곡선은 직선 $y=x$와 같은 방향의 대각선이다. 대각선의 ROC는 분류기가 신호와 잡음을 전혀 구별하지 못하고 랜덤으로 찍는 것을 의미한다. 신호 분포와 잡음 분포가 완벽히 겹치므로, $\alpha\equiv\beta$이다. 따라서 $\mathrm{FPR}\equiv\mathrm{TPR}$이기 때문에 ROC 곡선은 직선 $y=x$와 같은 방향의 대각선인 것이다.

(2) 구분도가 점점 커질 수록 ROC 곡선은 대각선에서 멀어지며, ‘$\Gamma$’의 형태를 갖게 된다. 대각선에서 멀어질 수록 잡음과 신호간 차이가 크다고 볼 수 있고, 분류기의 성능이 좋다고 할 수 있다. 임계값을 고정한 채, 잡음 분포와 신호 분포간 거리가 멀어질 수록 위음성률 $\mathrm{FNR}=\beta$는 0에 수렴하고, 진양성률 $\mathrm{TPR}=1-\beta$은 1에 수렴하기 때문이다. 통계적 가설검정에서 진양성률을 다른 말로 검정력이라고 했다. 어떤 통계적 가설검정법이 얼마나 틀린 영가설을 잘 기각해내는지, 다시 말해 판별기/검사기가 얼마나 있는 차이/문제점을 잘 잡아내는지를 계량하는 수치이다.

(3) ROC 곡선이 대각선에서 멀어질 때, 곡선 아래 면적(Area Under the Curve, AUC)도 커진다. 따라서 AUC는 분류기 성능의 척도로 기능한다. 서로 다른 ROC 곡선이지만 AUC가 같을 경우, 분류기의 성능은 같다고 본다.

(4) 다른 조건은 그대로 두고 차이만 변할 때 점 $(\mathrm{FPR},\mathrm{TPR})$은 수직으로 운동하는데, 임계값이 변하지 않으므로 $\mathrm{FPR}=\alpha$으로 고정된 채 변하지 않기 때문이라고 해석한다.

# 분류기의 성능비교(구분도 계산)

ROC곡선이 대각선에서 멀어질수록, 잡음과 신호의 차이, 구분도가 크므로 좋은 성능의 분류기라고 할 수있다.

구체적으로 얼마나 큰지 계산하는 공식은 다음과 같다. 공식에서 $\Phi$는 z분포의 CDF이다.

$$ \delta=[\Phi^{-1}(\mathrm{TPR})-\Phi^{-1}(\mathrm{FPR})]\sigma $$

공식 유도:

예시: 주의할 점은 서로 다른 분류기의 분산이 $\sigma^2$으로 같을 때 쉬운 비교가 가능하다는 것이다. 분산이 다르면 그 값도 곱한 결과로 판단해야 된다.

# 자극의 분산

신호와 잡음의 분산도 ROC 곡선을 변화시킨다. 다른 조건이 일정할 때, 자극의 분산이 크다고 상상해보자. 오류확률의 합 $\alpha+\beta$가 매우 크게 증가하며, 분류기의 성능은 매우 떨어진다. 자극의 분산이 커질수록 ROC 곡선은 대각선에 가까워지며, 구분도가 일정함에도 불구하고 성능이 떨어진다.

# ROC 곡선의 기울기, 반응편향

ROC 곡선은 다음과 같이 임계값 $c$를 매개변수로 하는 $\mathbb{R}^2$ 위의 곡선이다.

$$ \mathrm{ROC}: \begin{cases} \mathrm{FPR}=\mathrm{FPR}(c)=\int_{c}^{\infty}f_{N}(x)\space dx \\ \mathrm{TPR}=\mathrm{TPR}(c)=\int_{c}^{\infty}f_{S}(x)\space dx \end{cases} $$

$f_{N}(x)$와 $f_{S}(x)$는 잡음과 신호의 확률밀도이다.

위에서 보았듯 $c$가 변할 때 점 $(\mathrm{FPR},\mathrm{TPR})$은 ROC 곡선을 따라 운동했다. 이 운동에 대해 자세히 알아보기 위해 ROC 곡선의 기울기를 구해보자.

$$ \frac{d\mathrm{TPR}}{d\mathrm{FPR}}=\frac{d\mathrm{TPR}}{dc}(\frac{d\mathrm{FPR}}{dc})^{-1}=-f_{S}(c)\cdot(-f_{N}(c))^{-1}=\frac{f_{S}(c)}{f_{N}(c)} $$

즉, ROC 곡선의 기울기는 주어진 임계값에서 잡음 대비 신호의 확률밀도값이다. 이것을 자세히 뜯어보면 가능도비(Likelihood Ratio, LR; 似然比)와 같다.

$$ \frac{d\mathrm{TPR}}{d\mathrm{FPR}}=\frac{f_{S}(c)}{f_{N}(c)}=\frac{P(X=c\mid\mu=\mu_S)}{P(X=c\mid\mu=\mu_N)} $$

가능도비는 심리학에서 피험자가 어떤 자극이 ‘신호가 아닐 것이라고 생각하는 경향’을 측정하는 데 쓰며, 이를 반응편향(Response Bias; 反应偏向)이라고 하며, $b$나 (제2종 오류 발생률과 혼동이 없는 한) $\beta$로 나타낸다. 반응편향은 임계값에서 신호와 잡음이 만들어낸 신경활동의 비율로 해석하며, ROC 곡선의 기울기로 나타낸다.

반응편향 > 1이면 ROC 곡선에서 접선의 기울기가 가파른 점을 나타내며, 이 점에 대응하는 피험자나 분류기는 보수적(Conservative; 保守)이다. 어떤 자극이 입력되어도 신호가 아닐것이라고 생각하는 경향이 강해서 반응을 출력하지 않는다.

note: 반응편향 = 1이면 ROC의 접선은 대각선과 평행하며, 비편향적(Unbiased; 无偏)이다. 반응편향 < 1이면 ROC의 접선은 완만하고 급진적(Liberal; 激进的)이라고 한다.

AI판사로 비유하면, 임의 수준의 혐의를 입증할만한 증거를 입력했을 때, 무죄라고 판결할 성향이 강하다는 뜻이다. 보수적인 AI판사는 임계값이 높게 설정되어 있고, 따라서 위양성률도 낮다. 이렇게 하면 좋은 점은 무죄인 사람에게 실수로 유죄판결을 하는 일을 방지할 수 있지만, 그 대가로 위음성률도 높아지기 때문에 유죄인 범죄자를 놓치게 된다.

보수적인 반응 편향과 관련된 표현을 정리하면 다음과 같다.

(1) 분류기가 보수적이다. (2) 임계값(반응역치)이 크다. (3) 위양성률(오경보율)이 낮다. 대신 위음성률(누락률)이 크다. (4) 가능도비(=반응 편향) > 1 (ROC곡선에서 가파른 기울기를 갖는 점, 원점에 가깝다.)

높은 임계값일 수록, 원점에 가까워질 수록, ROC 곡선의 기울기가 가파르게 변한다는 것의 해석: ROC 곡선의 기울기 $\frac{d\mathrm{TPR}}{d\mathrm{FPR}}$는 진양성률 $1-\beta$의 상대적인 변화를 나타내는데, 높은 임계값일 수록 진양성률 $\alpha$(분홍색 면적)가 줄어드는 속도는 느린 반면, 그 대가라고 할 수 있는 위양성률 $\beta$(하늘색 면적)는 매우 빠르게 증가한다. 위양성률이 빠르게 증가하면 진양성률 $1-\beta$는 빠르게 감소한다. 그 결과 원점에 가까울 수록 위양성률 $\alpha$가 조금만 줄어도 진양성률은 매우 크게 감소한다.