본문 바로가기

Mathematics

단순 선형회귀모델 (2): 회귀계수, 회귀함수, 신뢰구간, 예측구간

728x90

이미 알고 있는 사실과 새로운 가정

(H1) 단순 선형회귀모델은 $Y=\beta_0+\beta_1x+\epsilon,\quad\epsilon\sim N(0,\sigma^2)$이다.

→ 구체적인 통계적 추론에서는 오차에 대해 $E[\epsilon]=0,V[\epsilon]=\sigma^2$을 가정하는 것으로는 부족하고 구체적인 확률분포를 가정해야 한다.

→ 오차의 구체적인 확률분포로 정규분포를 가정한다 (정규분포가 어떻게 유도되었는가를 생각할 때 이는 합당하다).

→ 따라서 $Y,\hat\beta_0,\hat\beta_1$ 등이 모두 정규분포를 따르게 된다. 이처럼 선형회귀모델의 모든 확률적인 성격은 오차에서 출발하기 때문에 선형회귀모델 사용 시 정규성을 확보하는 것이 중요하다.

(H2) 오차를 제외한 나머지 부분을 회귀함수라고 하고, $\mu_Y:=\beta_0+\beta_1 x$으로 나타낸다.

→ $E[Y]=\beta_0+\beta_1x$임을 이미 알고 있으므로 이와 같은 표기는 합당하다.

(H3) 모델의 파라미터를 $\hat\beta_0,\hat\beta_1$으로 추정했을 때, 학습 데이터 $x$에 대해 모델이 만드는 예측은 $\hat Y:=\hat\beta_0+\hat\beta_1 x$이고 실제로는 $Y=\beta_0+\beta_1x+\epsilon$임을 알고 있다.

→ $SSE:=\sum(Y_i-\hat Y_i)^2$을 최소화하도록 $\hat\beta_0=\bar Y-\hat\beta_1 \bar x,\hat\beta_1=\frac{S_{xY}}{S_{xx}}$가 추정된다.

→ $E[\hat\beta_i]=\beta_i$, 즉 이 추정량들은 불편추정량임을 알고 있다.

→ $c_{00}=\frac{\sum x_i^2}{nS_{xx}},c_{11}=\frac{1}{S_{xx}},c_{01}=-\frac{\bar x}{S_{xx}}$로 두면, $Cov[\hat\beta_i,\hat\beta_j]=c_{ij}\sigma^2$임을 알고 있다.

(H4) 모델의 파라미터를 $\hat\beta_0,\hat\beta_1$으로 추정했을 때, 새로운 테스트 데이터 $x^\ast$에 대해 모델이 만드는 예측은 $\hat Y^\ast:=\hat\beta_0+\hat\beta_1 x^\ast$으로 나타내고, 실제로는 $Y^\ast=\beta_0+\beta_1x^\ast+\epsilon$이다.

→ $\hat Y^\ast$는 모델이 추정한 $\hat\beta_0,\hat\beta_1$의 함수인 반면 $Y^\ast$는 단지 오차 $\epsilon$의 함수이고 이와 무관하다. 따라서 $\hat Y^\ast$와 $Y^\ast$는 서로 독립이다.

모평균의 통계적 추론 복습

모평균 $\mu$의 추론에 적합한 불편추정량은 샘플평균 $\bar Y=\frac{1}{n}\sum Y_i$이다.

모집단의 평균과 분산이 각각 $\mu,\sigma^2$일 때 $E[\bar Y]=\mu$, $V[\bar Y]=\sigma^2/n$이다.

샘플평균은 어떤 이유로든 정규분포를 따른다 (정규성 가정이 성립한다)고 해야 추후 논의가 진행될 수 있다. $\chi^2$, $t$ 등 샘플링 분포들은 모두 정규분포에서 얻기 때문이다.

→ 예 1) 모집단이 정규분포이므로 샘플도 정규분포고, 샘플의 함수인 샘플평균도 정규분포다.

→ 예 2) 모집단은 정규분포가 아니지만,

→ 샘플에 적당한 변환을 해서 정규분포로 만들면, 샘플평균이 정규분포다.

→ 샘플의 크기가 클 경우 중심극한정리에 의해 샘플평균이 정규분포다.

대부분의 경우 모집단의 분산 $\sigma^2$을 모르므로, $\sigma^2$의 불편추정량인 샘플분산 $S^2=\frac{1}{n-1}\sum(Y_i-\bar Y)^2$을 사용한다. 이 경우 $T$ 통계량을 사용하고, 샘플링 분포는 $t(n-1)$이다.

$$ T=\frac{\bar Y-\mu}{\sqrt{S^2/n}}=\frac{\frac{\bar Y-\mu}{\sqrt{\sigma^2/n}}}{\sqrt{\frac{1}{n-1}\frac{(n-1)S^2}{\sigma^2}}}\sim t(n-1) $$

$T$ 통계량을 만들 수 있는 이유:

(1) $\frac{\bar Y-\mu}{\sqrt{\sigma^2/n}}\sim N(0,1^2)$, (2) $\frac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1)$, (3) $\bar Y,S^2$이 서로 독립이기 때문에 가능하다.

통계적 추론 예시:

(1) 모평균의 $100(1-\alpha)\%$ 양측 신뢰구간은 $\bar Y\pm t_{\alpha/2,n-1}\sqrt{S^2/n}$

(2) $H_0:\mu=\mu_0$을 검정하기 위한 통계량 관측치와 분위수: $t=\frac{\bar Y-\mu_0}{\sqrt{S^2/n}}$, $t_{\alpha/2,n-2}$

파라미터 (회귀계수)의 추론

파라미터 $\beta_1,\beta_0$의 추론에 적합한 불편추정량은 $\hat\beta_1=\frac{S_{xY}}{S_{xx}},\hat\beta_0=\bar Y-\hat \beta_1 \bar x$이다.

$E[\hat\beta_i]=\beta_i$이고, $Cov[\hat\beta_i,\hat\beta_j]=c_{ij}\sigma^2$이다. 여기서 $c_{00}=\frac{\sum x_i^2}{nS_{xx}},c_{11}=\frac{1}{S_{xx}},c_{01}=-\frac{\bar x}{S_{xx}}$.

$\hat\beta_1,\hat\beta_0$은 정규분포를 따른다.

오차의 분산 $\sigma^2$을 모르므로, $\sigma^2$의 불편추정량인 $S^2=\frac{1}{n-2}SSE$를 사용한다. 이 경우 $T$ 통계량을 사용하고, 샘플링 분포는 $t(n-2)$이다.

$$ T=\frac{\hat\beta_i-\beta_i}{\sqrt{c_{ii}S^2}}=\frac{\frac{\hat\beta_i-\beta_i}{\sqrt{c_{ii}\sigma^2}}}{\sqrt{\frac{1}{n-2}\frac{(n-2)S^2}{\sigma^2}}}\sim t(n-2) $$

$T$ 통계량을 만들 수 있는 이유:

→ (1) $\frac{\hat\beta_i-\beta_i}{\sqrt{c_{ii}\sigma^2}}\sim N(0,1^2)$, (2) $\frac{(n-2)S^2}{\sigma^2}\sim \chi^2(n-2)$, (3) $\hat\beta_i,i=1,0$와 $S^2$이 서로 독립이기 때문에 가능하다.

통계적 추론 예시:

(1) 회귀계수의 $100(1-\alpha)\%$ 양측 신뢰구간은 $\hat\beta_i\pm t_{\alpha/2,n-2}\sqrt{c_{ii}S^2}$

(2) $H_0:\beta_i=k$을 검정하기 위한 통계량 관측치와 분위수: $t=\frac{\hat\beta_i-k}{\sqrt{c_{ii}S^2}}$, $t_{\alpha/2,n-2}$

회귀함수의 추론

$\beta_1,\beta_0$에 대해 개별적으로 통계적 추론을 할 수도 있지만, 회귀함수 $\mu_Y=\beta_0+\beta_1 x$를 파라미터로 보고, 이에 대해 추론할 수도 있다.

먼저, $\mu_Y$의 불편추정량을 찾으면 $\hat\mu_Y=\hat\beta_0+\hat\beta_1 x$이다.

$E[\hat\mu_Y]=E[\hat\beta_0]+E[\hat\beta_1] x=\beta_0+\beta_1x=\mu_Y$

그리고 $\hat\mu_Y$의 분산을 구할 수 있다.

$V[\hat\mu_Y]=V[\hat\beta_0]+x^2V[\hat\beta_1]+2xCov[\hat\beta_0,\hat\beta_1]=(c_{00}+c_{11}x^2+2c_{01}x)\sigma^2=(\frac{1}{n}+\frac{(x-\bar x)^2}{S_{xx}})\sigma^2$

$T$ 통계량을 만들면 다음과 같다.

$$ T=\frac{\hat\mu_Y-\mu_Y}{\sqrt{(\frac{1}{n}+\frac{(x-\bar x)^2}{S_{xx}})S^2}}=\frac{\frac{\hat\mu_Y-\mu_Y}{\sqrt{(\frac{1}{n}+\frac{(x-\bar x)^2}{S_{xx}})\sigma^2}}}{\sqrt{\frac{1}{n-2}\frac{(n-2)S^2}{\sigma^2}}}\sim t(n-2) $$

$T$ 통계량을 만들 수 있는 이유:

(1) $\frac{\hat\mu_Y-\mu_Y}{\sqrt{(\frac{1}{n}+\frac{(x-\bar x)^2}{S_{xx}})\sigma^2}}\sim N(0,1^2)$, (2) $\frac{(n-2)S^2}{\sigma^2}\sim \chi^2(n-2)$, (3) $\hat\mu_Y$와 $S^2$이 서로 독립이기 때문에 가능하다.

통계적 추론 예시:

회귀함수의 $100(1-\alpha)\%$ 양측 신뢰구간은 $\hat\beta_0+\hat\beta_1 x\pm t_{\alpha/2,n-2}\sqrt{(\frac{1}{n}+\frac{(x-\bar x)^2}{S_{xx}})S^2}$

→ 이는 회귀선이 존재할 범위를 나타낸다.

새로운 실제 값에 대한 추론

새로운 테스트 데이터 $x^\ast$에 대한 모델의 실제 값 $Y^\ast=\beta_0+\beta_1x^\ast+\epsilon$에 대해 통계적 추론을 진행한다. 먼저 예측 값 $\hat Y^\ast:=\hat\beta_0+\hat\beta_1 x^\ast$과의 차이 $Y^\ast-\hat Y^\ast$를 생각한다.

$E[ Y^\ast-\hat Y^\ast]=E[ Y^\ast]-E[\hat Y^\ast]=(\beta_0+\beta_1x^\ast+E[\epsilon])-(E[\hat\beta_0]+E[\hat\beta_1]x^\ast)=0$

$V[ Y^\ast-\hat Y^\ast]=V[ Y^\ast]+V[\hat Y^\ast]=\sigma^2+(c_{00}+c_{11}x^2+2c_{01}x^\ast)\sigma^2=(1+\frac{1}{n}+\frac{(x^\ast-\bar x)^2}{S_{xx}})\sigma^2$

$T$ 통계량을 만들면 다음과 같다.

$$ T=\frac{Y^\ast-\hat Y^\ast}{\sqrt{(1+\frac{1}{n}+\frac{(x^\ast-\bar x)^2}{S_{xx}})S^2}}=\frac{\frac{(Y^\ast-\hat Y^\ast)-0}{\sqrt{(1+\frac{1}{n}+\frac{(x^\ast-\bar x)^2}{S_{xx}})\sigma^2}}}{\sqrt{\frac{1}{n-2}\frac{(n-2)S^2}{\sigma^2}}}\sim t(n-2) $$

$T$ 통계량을 만들 수 있는 이유:

(1) $\frac{(Y^\ast-\hat Y^\ast)-0}{\sqrt{(1+\frac{1}{n}+\frac{(x^\ast-\bar x)^2}{S_{xx}})\sigma^2}}\sim N(0,1^2)$, (2) $\frac{(n-2)S^2}{\sigma^2}\sim \chi^2(n-2)$, (3) $Y^\ast-\hat Y^\ast$와 $S^2$이 서로 독립이기 때문에 가능하다.

통계적 추론 예시:

새로운 실제 값의 $100(1-\alpha)\%$ 양측 예측구간은 $\hat\beta_0+\hat\beta_1 x^\ast\pm t_{\alpha/2,n-2}\sqrt{(1+\frac{1}{n}+\frac{(x^\ast-\bar x)^2}{S_{xx}})S^2}$

→ 새로운 값이 존재할 범위를 나타낸다.

→ 예측구간의 너비가 신뢰구간보다 크다. 이는 모델 자체의 불확실성에 새로운 데이터의 불확실성이 추가되기 때문이다.

728x90