본문 바로가기

Mathematics

단순 선형회귀모델 (1): SSE 최소화 추정량과 모멘트

728x90

기본적인 가정

(H1) 단순 선형회귀모델은 Y=β0+β1x+ϵ이고, 오차에 대해 E[ϵ]=0, V[ϵ]=σ2을 가정한다.

→ 즉, 선형회귀모델의 모든 확률적 성격은 오차에서 비롯된다 (종속변수, 파라미터 추정량, 통계량 등의 확률분포, 모멘트 등).

(H2) Yi번째 측정을 Yi=β0+β1xi+ϵi,i=1,2,,n으로 표현하고, 이때의 오차 ϵi에 대해 IID (독립항등분포)를 가정한다.

→ 모든 측정의 오차 ϵi가 서로 독립이고, 모멘트가 E[ϵi]=0, V[ϵi]=σ2으로 일정하다.

ϵi가 IID이므로 Yi도 IID이다. 즉, E[Yi],V[Yi]가 일정하고, Cov[Yi,Yj]=V[Yi]δij이다.

(H3) β0,β1,σ2은 모델에서 추정이 필요한 파라미터이다. 추정량을 β^0,β^1,σ^2이라고 한다.

(H4) 모델의 파라미터를 β^0,β^1으로 추정했을 때, 모델이 학습 데이터 xi에 대해 만드는 예측은 Y^i:=β^0+β^1xi이다. 실제 값은 Yi이다.

(H5) 오차제곱합 SSE=(YiY^i)2는 모델이 학습 데이터에 대해 만든 예측들의 전체적인 오차이다. 이것을 최소화하도록 파라미터 추정량 β^0,β^1을 정한다.

(H6) SYY:=(YiY¯)2,SxY:=(xix¯)(YiY¯),Sxx:=(xix¯)2와 같이 정의한다.

(H7) 랜덤변수와 결정적인 값들 구분

→ 모델의 오차 ϵ가 랜덤변수이므로 종속변수 Y도 랜덤변수다.

i번째 측정의 오차 ϵi가 랜덤변수이므로 Yi도 랜덤변수고, Yi의 함수 Y¯,SYY,SxY,SSE도 랜덤변수다.

→ 모델의 파라미터 추정량 β^0,β^1,σ^2은 모두 랜덤변수고, 파라미터의 함수 Y^i도 랜덤변수.

→ 그 외 x,x¯,xi,Sxx 모두 결정적인 값이고, 파라미터의 실제 값 β0,β1,σ2도 결정적인 값.

의미 있는 결론들

(C1) β^SSE=0β^0=Y¯β^1x¯,β^1=SxYSxx

→ 모델의 SSE를 최소화하는 파라미터 β^0,β^1에 관한 공식.

증명:

SSEβ^0=2(Yiβ^0nβ^1xi)=0(1)

SSEβ^1=2(xiYiβ^0xiβ^1xi2)=0(2)

(1)β^0=Y¯β^1x¯

(1)×xi(2)×nxiYinxiYi+β^1(nxi2(xi)2)=0

β^1=xiYi1nxiYixi21n(xi)2=xiYinx¯Y¯xi2nx¯2=(xix¯)(YiY¯)(xix¯)2=SxYSxx

(C2) E[β^1]=β1,E[β^0]=β0

→ 위 공식으로 구한 β^0,β^1는 불편추정량이다.

증명:

E[β^1]=(xix¯)E[Yi]Sxx=(xix¯)(β0+β1xi)Sxx=β0((xix¯)Sxx)+β1((xix¯)xiSxx)=β00+β11=β1

E[β^0]=E[Y¯]E[β^1]x¯=(β0+β1x¯)β1x¯=β0

(C3) V[β^1]=1Sxxσ2,V[β^0]=xi2nSxxσ2

→ 불편추정량의 분산 공식. 이를 이용하여 통계량을 만들고, 신뢰구간 분석과 가설 검정을 수행할 수 있다.

증명:

V[β^1]=(xix¯)2V[Yi]Sxx2=σ2SxxSxx2=1Sxxσ2

V[β^0]=V[Y¯]+x¯2V[β^1]2x¯Cov[Y¯,β^1]=σ2n+x¯21Sxxσ20=σ2(Sxx+nx¯2)nSxx=σ2xi2nSxx=xi2nSxxσ2

(C4) Cov[β^0,β^1]=x¯Sxxσ2

x¯0인 한, 파라미터 β^0,β^1 사이에 상관관계가 존재한다. 데이터를 중심화하면 파라미터 사이의 상관관계를 없앨 수 있다.

증명:

Cov[β^0,β^1]=Cov[Y¯β^1x¯,β^1]=Cov[Y¯,β^1]x¯V[β^1]=0x¯1Sxxσ2=x¯Sxxσ2

(C5) E[SSE]=(n2)σ2

→ 오차의 분산 σ2의 불편추정량은 σ^2=1n2SSE이다. 따라서 관련된 샘플링 분포들 (t-분포, χ2-분포 등)은 모두 n2의 자유도를 갖게 된다.

증명:

E[SSE]=E[SYY]SxxE[β^12]

여기서 E[SYY]=(n1)σ2+β12Sxx이고,

SxxE[β^12]=Sxx[V[β^1]+E[β^1]2]=Sxx(1Sxxσ2+β12)=σ2+β12Sxx

증명에 활용된 보조정리

식 변형

(L1-1) 1n(Yi)2=nY¯2,1nxiYi=nx¯Y¯,1n(xi)2=nx¯2

증명:

1n(Yi)2=1n(nY¯)2=nY¯2

1nxiYi=x¯nY¯=nx¯Y¯

1n(xi)2=1n(nx¯)2=nx¯2

(L1-2) SYY=Yi2nY¯2,SxY=xiYinx¯Y¯,Sxx=xi2nx¯2

증명:

SYY=(YiY¯)2=Yi2+Y¯2n2Y¯Yi=Yi2+Y¯2n2Y¯(nY¯)=Yi2nY¯2

SxY=(xix¯)(YiY¯)=xiYix¯YiY¯xi+nx¯Y¯=xiYix¯(nY¯)Y¯(nx¯)+nx¯Y¯=xiYinx¯Y¯

Sxx=(xix¯)2=xi2+x¯2n2x¯xi=xi2+x¯2n2x¯(nx¯)=xi2nx¯2

(L1-3) SSE=SYYβ^1SxY=SYYβ^12Sxx

증명:

SSE=(Yiβ^0β^1xi)2=((YiY¯)β^1(xix¯))2=SYY+β^12Sxx2β^1SxY=SYY+β^1SxY2β^1SxY=SYYβ^1SxY=SYYβ^12Sxx

(L1-4) (xix¯)=0,ij(xjx¯)δij=0

증명:

(xix¯)=xinx¯=nx¯nx¯=0,ij(xjx¯)δij=i(xix¯)=0

(L1-5) 0=(xix¯)Sxx,1=(xix¯)xiSxx,β^1=(xix¯)YiSxx

증명:

(xix¯)=0이고, Sxx=xi2nx¯2=xi2x¯xi=(xix¯)xi이므로

0=0Sxx=(xix¯)Sxx,1=SxxSxx=(xix¯)xiSxx

β^1=SxYSxx=(xix¯)(YiY¯)Sxx=(xix¯)YiSxxY¯(xix¯)Sxx=(xix¯)YiSxx0=(xix¯)YiSxx

모멘트 관련

(L2-1)

E[Y]=β0+β1x,V[Y]=σ2,E[Yi]=β0+β1xi

V[Yi]=σ2,Cov[Yi,Yj]=σ2δij

증명:

E[Y]=β0+β1x+E[ϵ]=β0+β1x+0=β0+β1x

V[Y]=V[ϵ]=σ2

E[Yi]=β0+β1xi+E[ϵi]=β0+β1xi+0=β0+β1xi

V[Yi]=V[ϵi]=σ2

Cov[Yi,Yj]=V[Yi]δij=σ2δij

(L2-2) E[Y¯]=β0+β1x¯,V[Y¯]=σ2n

증명:

E[Y¯]=1nE[Yi]=1n(β0n+β1xi)=β0+β1x¯

V[Y¯]=1n2V[Yi]=1n2nσ2=σ2n

(L2-3) Cov[Y¯,β^1]=0

증명:

Cov[Y¯,β^1]=Cov[i(1n)Yi,j(xjx¯Sxx)Yj]=ij(1n)(xjx¯Sxx)Cov[Yi,Yj]=σ2nSxxij(xjx¯)δij=0

(L2-4) E[SYY]=(n1)σ2+β12Sxx

증명:

E[SYY]=E[Yi2]nE[Y¯2]이고,

E[Yi2]=V[Yi]+E[Yi]2=σ2+β02+β12xi2+2β0β1xi

E[Yi2]=nσ2+nβ02+β12(xi2)+2nβ0β1(x¯)

E[Y¯2]=V[Y¯]+E[Y¯]2=σ2n+β02+β12x¯2+2β0β1x¯

nE[Y¯2]=σ2+nβ02+β12(nx¯2)+2nβ0β1x¯이므로,

E[SYY]=(n1)σ2+β12(xi2nx¯2)=(n1)σ2+β12Sxx

728x90