Mathematics

단순 선형회귀모델 (2): 회귀계수, 회귀함수, 신뢰구간, 예측구간

mathnotes 2025. 3. 16. 21:33
728x90

이미 알고 있는 사실과 새로운 가정

(H1) 단순 선형회귀모델은 Y=β0+β1x+ϵ,ϵN(0,σ2)이다.

→ 구체적인 통계적 추론에서는 오차에 대해 E[ϵ]=0,V[ϵ]=σ2을 가정하는 것으로는 부족하고 구체적인 확률분포를 가정해야 한다.

→ 오차의 구체적인 확률분포로 정규분포를 가정한다 (정규분포가 어떻게 유도되었는가를 생각할 때 이는 합당하다).

→ 따라서 Y,β^0,β^1 등이 모두 정규분포를 따르게 된다. 이처럼 선형회귀모델의 모든 확률적인 성격은 오차에서 출발하기 때문에 선형회귀모델 사용 시 정규성을 확보하는 것이 중요하다.

(H2) 오차를 제외한 나머지 부분을 회귀함수라고 하고, μY:=β0+β1x으로 나타낸다.

E[Y]=β0+β1x임을 이미 알고 있으므로 이와 같은 표기는 합당하다.

(H3) 모델의 파라미터를 β^0,β^1으로 추정했을 때, 학습 데이터 x에 대해 모델이 만드는 예측은 Y^:=β^0+β^1x이고 실제로는 Y=β0+β1x+ϵ임을 알고 있다.

SSE:=(YiY^i)2을 최소화하도록 β^0=Y¯β^1x¯,β^1=SxYSxx가 추정된다.

E[β^i]=βi, 즉 이 추정량들은 불편추정량임을 알고 있다.

c00=xi2nSxx,c11=1Sxx,c01=x¯Sxx로 두면, Cov[β^i,β^j]=cijσ2임을 알고 있다.

(H4) 모델의 파라미터를 β^0,β^1으로 추정했을 때, 새로운 테스트 데이터 x에 대해 모델이 만드는 예측은 Y^:=β^0+β^1x으로 나타내고, 실제로는 Y=β0+β1x+ϵ이다.

Y^는 모델이 추정한 β^0,β^1의 함수인 반면 Y는 단지 오차 ϵ의 함수이고 이와 무관하다. 따라서 Y^Y는 서로 독립이다.

모평균의 통계적 추론 복습

모평균 μ의 추론에 적합한 불편추정량은 샘플평균 Y¯=1nYi이다.

모집단의 평균과 분산이 각각 μ,σ2일 때 E[Y¯]=μ, V[Y¯]=σ2/n이다.

샘플평균은 어떤 이유로든 정규분포를 따른다 (정규성 가정이 성립한다)고 해야 추후 논의가 진행될 수 있다. χ2, t 등 샘플링 분포들은 모두 정규분포에서 얻기 때문이다.

→ 예 1) 모집단이 정규분포이므로 샘플도 정규분포고, 샘플의 함수인 샘플평균도 정규분포다.

→ 예 2) 모집단은 정규분포가 아니지만,

→ 샘플에 적당한 변환을 해서 정규분포로 만들면, 샘플평균이 정규분포다.

→ 샘플의 크기가 클 경우 중심극한정리에 의해 샘플평균이 정규분포다.

대부분의 경우 모집단의 분산 σ2을 모르므로, σ2의 불편추정량인 샘플분산 S2=1n1(YiY¯)2을 사용한다. 이 경우 T 통계량을 사용하고, 샘플링 분포는 t(n1)이다.

T=Y¯μS2/n=Y¯μσ2/n1n1(n1)S2σ2t(n1)

T 통계량을 만들 수 있는 이유:

(1) Y¯μσ2/nN(0,12), (2) (n1)S2σ2χ2(n1), (3) Y¯,S2이 서로 독립이기 때문에 가능하다.

통계적 추론 예시:

(1) 모평균의 100(1α)% 양측 신뢰구간은 Y¯±tα/2,n1S2/n

(2) H0:μ=μ0을 검정하기 위한 통계량 관측치와 분위수: t=Y¯μ0S2/n, tα/2,n2

파라미터 (회귀계수)의 추론

파라미터 β1,β0의 추론에 적합한 불편추정량은 β^1=SxYSxx,β^0=Y¯β^1x¯이다.

E[β^i]=βi이고, Cov[β^i,β^j]=cijσ2이다. 여기서 c00=xi2nSxx,c11=1Sxx,c01=x¯Sxx.

β^1,β^0은 정규분포를 따른다.

오차의 분산 σ2을 모르므로, σ2의 불편추정량인 S2=1n2SSE를 사용한다. 이 경우 T 통계량을 사용하고, 샘플링 분포는 t(n2)이다.

T=β^iβiciiS2=β^iβiciiσ21n2(n2)S2σ2t(n2)

T 통계량을 만들 수 있는 이유:

→ (1) β^iβiciiσ2N(0,12), (2) (n2)S2σ2χ2(n2), (3) β^i,i=1,0S2이 서로 독립이기 때문에 가능하다.

통계적 추론 예시:

(1) 회귀계수의 100(1α)% 양측 신뢰구간은 β^i±tα/2,n2ciiS2

(2) H0:βi=k을 검정하기 위한 통계량 관측치와 분위수: t=β^ikciiS2, tα/2,n2

회귀함수의 추론

β1,β0에 대해 개별적으로 통계적 추론을 할 수도 있지만, 회귀함수 μY=β0+β1x를 파라미터로 보고, 이에 대해 추론할 수도 있다.

먼저, μY의 불편추정량을 찾으면 μ^Y=β^0+β^1x이다.

E[μ^Y]=E[β^0]+E[β^1]x=β0+β1x=μY

그리고 μ^Y의 분산을 구할 수 있다.

V[μ^Y]=V[β^0]+x2V[β^1]+2xCov[β^0,β^1]=(c00+c11x2+2c01x)σ2=(1n+(xx¯)2Sxx)σ2

T 통계량을 만들면 다음과 같다.

T=μ^YμY(1n+(xx¯)2Sxx)S2=μ^YμY(1n+(xx¯)2Sxx)σ21n2(n2)S2σ2t(n2)

T 통계량을 만들 수 있는 이유:

(1) μ^YμY(1n+(xx¯)2Sxx)σ2N(0,12), (2) (n2)S2σ2χ2(n2), (3) μ^YS2이 서로 독립이기 때문에 가능하다.

통계적 추론 예시:

회귀함수의 100(1α)% 양측 신뢰구간은 β^0+β^1x±tα/2,n2(1n+(xx¯)2Sxx)S2

→ 이는 회귀선이 존재할 범위를 나타낸다.

새로운 실제 값에 대한 추론

새로운 테스트 데이터 x에 대한 모델의 실제 값 Y=β0+β1x+ϵ에 대해 통계적 추론을 진행한다. 먼저 예측 값 Y^:=β^0+β^1x과의 차이 YY^를 생각한다.

E[YY^]=E[Y]E[Y^]=(β0+β1x+E[ϵ])(E[β^0]+E[β^1]x)=0

V[YY^]=V[Y]+V[Y^]=σ2+(c00+c11x2+2c01x)σ2=(1+1n+(xx¯)2Sxx)σ2

T 통계량을 만들면 다음과 같다.

T=YY^(1+1n+(xx¯)2Sxx)S2=(YY^)0(1+1n+(xx¯)2Sxx)σ21n2(n2)S2σ2t(n2)

T 통계량을 만들 수 있는 이유:

(1) (YY^)0(1+1n+(xx¯)2Sxx)σ2N(0,12), (2) (n2)S2σ2χ2(n2), (3) YY^S2이 서로 독립이기 때문에 가능하다.

통계적 추론 예시:

새로운 실제 값의 100(1α)% 양측 예측구간은 β^0+β^1x±tα/2,n2(1+1n+(xx¯)2Sxx)S2

→ 새로운 값이 존재할 범위를 나타낸다.

→ 예측구간의 너비가 신뢰구간보다 크다. 이는 모델 자체의 불확실성에 새로운 데이터의 불확실성이 추가되기 때문이다.

728x90