사전 지식
(1) 상관계수와 결정계수 분석에서 독립변수는 더 이상 결정된 값 $x$가 아닌 랜덤변수 $X$이다.
(2) 단순 선형회귀모델은 $Y=\beta_0+\beta_1 X+\epsilon,\quad\epsilon\sim N(0,\sigma^2)$이다. 회귀함수는 $E[Y]=\beta_0+\beta_1E[X]$이다.
$X=x$로 정해졌을 때 기존의 단순 선형회귀모델 $Y=\beta_0+\beta_1 x+\epsilon,\quad\epsilon\sim N(0,\sigma^2)$이 되고 회귀함수는 $E[Y\vert X=x]=\beta_0+\beta_1x$이다.
(3) 모델의 전체적인 오차는 $SSE$가 아닌 $MSE:=E[(Y-\hat\beta_0-\hat\beta_1X)^2]$를 사용한다. $\beta_0,\beta_1$의 추정량 $\hat\beta_0,\hat\beta_1$은 $MSE$를 최소화하도록 정해진다.
(4) 모평균 $\mu_X:=E[X],\mu_Y:=E[Y]$, 모분산 $\sigma^2_X:=V[X],\sigma^2_Y:=V[Y]$, 모공분산 $c:=Cov[X,Y]$
(5) 불편추정량은 샘플평균 $\bar X,\bar Y$, 샘플분산 $\frac{1}{n-1}S_{XX},\frac{1}{n-1}S_{YY}$, 샘플공분산 $\frac{1}{n-1}S_{XY}$
(6) $\rho:=\frac{c}{\sigma_X\sigma_Y}$를 $X$와 $Y$의 상관계수라고 한다.
(7) 샘플상관계수는 $R:=\frac{S_{XY}}{\sqrt{S_{XX}S_{YY}}}$과 같이 모상관계수의 공분산과 분산을 불편추정량으로 대체한 것으로 정한다. 그 값은 $r=\frac{S_{xy}}{\sqrt{S_{xx}S_{yy}}}$
유용한 결론과 활용
(C1) $\nabla_{\hat\beta}MSE=0\implies\hat\beta_0=\mu_Y-\hat\beta_1\mu_X,\quad\hat\beta_1=\frac{c}{\sigma^2_X}=\frac{\sigma_Y}{\sigma_X}\rho$
→ 모델의 $MSE$를 최소화하는 파라미터에 대한 공식.
→ $\hat\beta_1$과 $\rho$의 부호가 같다는 사실이 가설 검정에 이용된다.
증명:
$\frac{\partial MSE}{\partial \hat\beta_0}=E[2(Y-\hat\beta_0-\hat\beta_1 X)(-1)]=0\iff(1)$
$\frac{\partial MSE}{\partial \hat\beta_1}=E[2(Y-\hat\beta_0-\hat\beta_1 X)(-X)]=0\iff(2)$
$(1)\implies \hat\beta_0=E[Y]-\hat\beta_1E[X]\iff(3)$
$(2)\implies E[XY]-\hat\beta_0E[X]-\hat\beta_1 E[X^2]=0$
$(2)$에 $(3)$을 대입해서 정리: $E[XY]-E[X]E[Y]-\hat\beta_1(E[X^2]-E[X]^2)=0$
즉 $Cov[X,Y]-\hat\beta_1V[X]=0$이고 $\hat\beta_1=\frac{Cov[X,Y]}{V[X]}$
(C2) $T=\frac{\hat\beta_1}{\sqrt{S_{xx}S^2}}\sim t(n-2)$
→ 상관계수에 관한 가설 $H_0:\rho=0$을 검정하는 데 사용되는 통계량과 샘플링 분포.
증명:
$\hat\beta_1$에 대한 통계적 추론은 익숙하다. 그리고 $H_0:\rho=0$은 $H_0:\hat\beta_1=0$과 같은 가설이다.
(C3) $r^2=1-\frac{SSE}{S_{yy}}\in[0,1]$
→ 샘플상관계수의 제곱은 $y_i$의 전체적인 변동 $S_{yy}$에서 $SSE$가 아닌 것이 차지하는 비율이다.
→ $SSE$는 전체적인 오차로, $S_{yy}$에서 설명되지 않은 부분이다.
→ 따라서 샘플상관계수의 제곱 $r^2$은 $S_{yy}$에서 설명된 비율을 의미한다. 이 비율을 결정계수 (Coefficient of Determination)라고 한다.
증명:
$\hat\beta_1=\frac{S_{xy}}{S_{xx}},SSE=S_{yy}-\hat\beta_1S_{xy}$로 계산되므로, $\hat\beta_1S_{xy}=S_{yy}-SSE$이고,
$r^2=(\frac{S_{xy}}{\sqrt{S_{xx}S_{yy}}})^2=(\frac{S_{xy}}{S_{xx}})(\frac{S_{xy}}{S_{yy}})=\hat\beta_1(\frac{S_{xy}}{S_{yy}})=\frac{\hat\beta_1S_{xy}}{S_{yy}}=\frac{S_{yy}-SSE}{S_{yy}}=1-\frac{SSE}{S_{yy}}$
또한 $\hat\beta_1=\frac{S_{xy}}{S_{xx}},SSE=S_{yy}-\hat\beta_1S_{xy}$에서 $SSE=S_{yy}-\frac{S_{xy}^2}{S_{xx}}$이고,
$\frac{S_{xy}^2}{S_{xx}}\ge0,SSE\ge0,S_{yy}\ge0$이므로 $0\le SSE\le S_{yy}\implies 0\le\frac{SSE}{S_{yy}}\le 1\implies 0\le1-\frac{SSE}{S_{yy}}\le1$
'Mathematics' 카테고리의 다른 글
단순 선형회귀모델 (2): 회귀계수, 회귀함수, 신뢰구간, 예측구간 (0) | 2025.03.16 |
---|---|
변분추론 (Variational Inference) (2) | 2025.03.14 |
단순 선형회귀모델 (1): SSE 최소화 추정량과 모멘트 (0) | 2025.03.11 |
와이블 분포 (0) | 2025.03.09 |
생존함수와 위험함수 (0) | 2025.03.08 |