본문 바로가기

Mathematics

단순 선형회귀모델 (3): 상관계수, 결정계수

728x90

사전 지식

(1) 상관계수와 결정계수 분석에서 독립변수는 더 이상 결정된 값 x가 아닌 랜덤변수 X이다.

(2) 단순 선형회귀모델은 Y=β0+β1X+ϵ,ϵN(0,σ2)이다. 회귀함수는 E[Y]=β0+β1E[X]이다.

X=x로 정해졌을 때 기존의 단순 선형회귀모델 Y=β0+β1x+ϵ,ϵN(0,σ2)이 되고 회귀함수는 E[Y|X=x]=β0+β1x이다.

(3) 모델의 전체적인 오차는 SSE가 아닌 MSE:=E[(Yβ^0β^1X)2]를 사용한다. β0,β1의 추정량 β^0,β^1MSE를 최소화하도록 정해진다.

(4) 모평균 μX:=E[X],μY:=E[Y], 모분산 σX2:=V[X],σY2:=V[Y], 모공분산 c:=Cov[X,Y]

(5) 불편추정량은 샘플평균 X¯,Y¯, 샘플분산 1n1SXX,1n1SYY, 샘플공분산 1n1SXY

(6) ρ:=cσXσYXY의 상관계수라고 한다.

(7) 샘플상관계수는 R:=SXYSXXSYY과 같이 모상관계수의 공분산과 분산을 불편추정량으로 대체한 것으로 정한다. 그 값은 r=SxySxxSyy

유용한 결론과 활용

(C1) β^MSE=0β^0=μYβ^1μX,β^1=cσX2=σYσXρ

→ 모델의 MSE를 최소화하는 파라미터에 대한 공식.

β^1ρ의 부호가 같다는 사실이 가설 검정에 이용된다.

증명:

MSEβ^0=E[2(Yβ^0β^1X)(1)]=0(1)

MSEβ^1=E[2(Yβ^0β^1X)(X)]=0(2)

(1)β^0=E[Y]β^1E[X](3)

(2)E[XY]β^0E[X]β^1E[X2]=0

(2)(3)을 대입해서 정리: E[XY]E[X]E[Y]β^1(E[X2]E[X]2)=0

Cov[X,Y]β^1V[X]=0이고 β^1=Cov[X,Y]V[X]

(C2) T=β^1SxxS2t(n2)

→ 상관계수에 관한 가설 H0:ρ=0을 검정하는 데 사용되는 통계량과 샘플링 분포.

증명:

β^1에 대한 통계적 추론은 익숙하다. 그리고 H0:ρ=0H0:β^1=0과 같은 가설이다.

(C3) r2=1SSESyy[0,1]

→ 샘플상관계수의 제곱은 yi의 전체적인 변동 Syy에서 SSE가 아닌 것이 차지하는 비율이다.

SSE는 전체적인 오차로, Syy에서 설명되지 않은 부분이다.

→ 따라서 샘플상관계수의 제곱 r2Syy에서 설명된 비율을 의미한다. 이 비율을 결정계수 (Coefficient of Determination)라고 한다.

증명:

β^1=SxySxx,SSE=Syyβ^1Sxy로 계산되므로, β^1Sxy=SyySSE이고,

r2=(SxySxxSyy)2=(SxySxx)(SxySyy)=β^1(SxySyy)=β^1SxySyy=SyySSESyy=1SSESyy

또한 β^1=SxySxx,SSE=Syyβ^1Sxy에서 SSE=SyySxy2Sxx이고,

Sxy2Sxx0,SSE0,Syy0이므로 0SSESyy0SSESyy101SSESyy1

728x90