Mathematics

단순 선형회귀모델 (1): SSE 최소화 추정량과 모멘트

mathnotes 2025. 3. 11. 19:56
728x90

기본적인 가정

(H1) 단순 선형회귀모델은 $Y=\beta_0+\beta_1 x+\epsilon$이고, 오차에 대해 $E[\epsilon]=0$, $V[\epsilon]=\sigma^2$을 가정한다.

→ 즉, 선형회귀모델의 모든 확률적 성격은 오차에서 비롯된다 (종속변수, 파라미터 추정량, 통계량 등의 확률분포, 모멘트 등).

(H2) $Y$의 $i$번째 측정을 $Y_i=\beta_0+\beta_1 x_i+\epsilon_i,\quad i=1,2,\cdots,n$으로 표현하고, 이때의 오차 $\epsilon_i$에 대해 IID (독립항등분포)를 가정한다.

→ 모든 측정의 오차 $\epsilon_i$가 서로 독립이고, 모멘트가 $E[\epsilon_i]=0$, $V[\epsilon_i]=\sigma^2$으로 일정하다.

→ $\epsilon_i$가 IID이므로 $Y_i$도 IID이다. 즉, $E[Y_i],V[Y_i]$가 일정하고, $Cov[Y_i, Y_j]=V[Y_i]\delta_{ij}$이다.

(H3) $\beta_0,\beta_1,\sigma^2$은 모델에서 추정이 필요한 파라미터이다. 추정량을 $\hat\beta_0,\hat\beta_1,\hat\sigma^2$이라고 한다.

(H4) 모델의 파라미터를 $\hat\beta_0,\hat\beta_1$으로 추정했을 때, 모델이 학습 데이터 $x_i$에 대해 만드는 예측은 $\hat Y_i:=\hat\beta_0+\hat\beta_1 x_i$이다. 실제 값은 $Y_i$이다.

(H5) 오차제곱합 $SSE=\sum (Y_i-\hat Y_i)^2$는 모델이 학습 데이터에 대해 만든 예측들의 전체적인 오차이다. 이것을 최소화하도록 파라미터 추정량 $\hat\beta_0,\hat\beta_1$을 정한다.

(H6) $S_{YY}:=\sum(Y_i-\bar Y)^2,\quad S_{xY}:=\sum(x_i-\bar x)(Y_i-\bar Y),\quad S_{xx}:=\sum(x_i-\bar x)^2$와 같이 정의한다.

(H7) 랜덤변수와 결정적인 값들 구분

→ 모델의 오차 $\epsilon$가 랜덤변수이므로 종속변수 $Y$도 랜덤변수다.

→ $i$번째 측정의 오차 $\epsilon_i$가 랜덤변수이므로 $Y_i$도 랜덤변수고, $Y_i$의 함수 $\bar Y,S_{YY},S_{xY},SSE$도 랜덤변수다.

→ 모델의 파라미터 추정량 $\hat\beta_0,\hat\beta_1,\hat\sigma^2$은 모두 랜덤변수고, 파라미터의 함수 $\hat Y_i$도 랜덤변수.

→ 그 외 $x,\bar x, x_i, S_{xx}$ 모두 결정적인 값이고, 파라미터의 실제 값 $\beta_0,\beta_1,\sigma^2$도 결정적인 값.

의미 있는 결론들

(C1) $\nabla_{\hat\beta} SSE=0\implies\hat\beta_0=\bar Y-\hat\beta_1\bar x,\quad\hat\beta_1=\frac{S_{xY}}{S_{xx}}$

→ 모델의 $SSE$를 최소화하는 파라미터 $\hat\beta_0,\hat\beta_1$에 관한 공식.

증명:

$\frac{\partial SSE}{\partial \hat\beta_0}=-2(\sum Y_i-\hat\beta_0 n-\hat\beta_1\sum x_i)=0\iff(1)$

$\frac{\partial SSE}{\partial \hat\beta_1}=-2(\sum x_iY_i-\hat\beta_0\sum x_i-\hat\beta_1\sum x_i^2)=0\iff (2)$

$(1)\implies \hat\beta_0=\bar Y-\hat\beta_1\bar x$

$(1) \times \sum x_i-(2)\times n\implies\sum x_i\sum Y_i-n\sum x_iY_i+\hat\beta_1(n\sum x_i^2-(\sum x_i)^2)=0$

$\therefore \hat \beta_1=\frac{\sum x_iY_i-\frac{1}{n}\sum x_i\sum Y_i}{\sum x_i^2-\frac{1}{n}(\sum x_i)^2}=\frac{\sum x_iY_i-n\bar x\bar Y}{\sum x_i^2-n\bar x ^2}=\frac{\sum(x_i-\bar x)(Y_i-\bar Y)}{\sum(x_i-\bar x)^2}=\frac{S_{xY}}{S_{xx}}$

(C2) $E[\hat \beta_1]=\beta_1,\quad E[\hat\beta_0]=\beta_0$

→ 위 공식으로 구한 $\hat\beta_0,\hat\beta_1$는 불편추정량이다.

증명:

$E[\hat \beta_1]=\frac{\sum(x_i-\bar x)E[Y_i]}{S_{xx}}\\=\frac{\sum(x_i-\bar x)(\beta_0+\beta_1 x_i)}{S_{xx}}=\beta_0(\frac{\sum(x_i-\bar x)}{S_{xx}})+\beta_1(\frac{\sum(x_i-\bar x)x_i}{S_{xx}})=\beta_0\cdot0+\beta_1\cdot1=\beta_1$

$E[\hat\beta_0]=E[\bar Y]-E[\hat\beta_1]\bar x=(\beta_0+\beta_1\bar x)-\beta_1\bar x=\beta_0$

(C3) $V[\hat\beta_1]=\frac{1}{S_{xx}}\sigma^2,\quad V[\hat\beta_0]=\frac{\sum x_i^2}{nS_{xx}}\sigma^2$

→ 불편추정량의 분산 공식. 이를 이용하여 통계량을 만들고, 신뢰구간 분석과 가설 검정을 수행할 수 있다.

증명:

$V[\hat\beta_1]=\frac{\sum(x_i-\bar x)^2V[Y_i]}{S_{xx}^2}=\frac{\sigma^2 S_{xx}}{S_{xx}^2}=\frac{1}{S_{xx}}\sigma^2$

$V[\hat \beta_0]=V[\bar Y]+\bar x^2V[\hat\beta_1]-2\bar xCov[\bar Y,\hat \beta_1]=\frac{\sigma^2}{n}+\bar x^2\frac{1}{S_{xx}}\sigma^2-0\\=\frac{\sigma^2(S_{xx}+n\bar x^2)}{n S_{xx}}=\frac{\sigma^2\sum x_i^2}{nS_{xx}}=\frac{\sum x_i^2}{nS_{xx}}\sigma^2$

(C4) $Cov[\hat\beta_0, \hat\beta_1]=-\frac{\bar x}{S_{xx}}\sigma^2$

→ $\bar x\not=0$인 한, 파라미터 $\hat\beta_0,\hat\beta_1$ 사이에 상관관계가 존재한다. 데이터를 중심화하면 파라미터 사이의 상관관계를 없앨 수 있다.

증명:

$Cov[\hat\beta_0,\hat\beta_1]=Cov[\bar Y-\hat\beta_1\bar x,\hat\beta_1]=Cov[\bar Y,\hat\beta_1]-\bar xV[\hat\beta_1]=0-\bar x\frac{1}{S_{xx}}\sigma^2=-\frac{\bar x}{S_{xx}}\sigma^2$

(C5) $E[SSE]=(n-2)\sigma^2$

→ 오차의 분산 $\sigma^2$의 불편추정량은 $\hat \sigma^2=\frac{1}{n-2}SSE$이다. 따라서 관련된 샘플링 분포들 ($t$-분포, $\chi^2$-분포 등)은 모두 $n-2$의 자유도를 갖게 된다.

증명:

$E[SSE]=E[S_{YY}]-S_{xx}E[\hat\beta_1^2]$

여기서 $E[S_{YY}]=(n-1)\sigma^2+\beta_1^2S_{xx}$이고,

$S_{xx}E[\hat\beta_1^2]=S_{xx}[V[\hat\beta_1]+E[\hat\beta_1]^2]=S_{xx}(\frac{1}{S_{xx}}\sigma^2+\beta_1^2)=\sigma^2+\beta_1^2S_{xx}$

증명에 활용된 보조정리

식 변형

(L1-1) $\frac{1}{n}(\sum Y_i)^2=n\bar Y^2,\quad\frac{1}{n}\sum x_i\sum Y_i=n\bar x\bar Y,\quad \frac{1}{n}(\sum x_i)^2=n\bar x^2$

증명:

$\frac{1}{n}(\sum Y_i)^2=\frac{1}{n}(n\bar Y)^2=n\bar Y^2$

$\frac{1}{n}\sum x_i\sum Y_i=\bar x\cdot n\bar Y=n\bar x\bar Y$

$\frac{1}{n}(\sum x_i)^2=\frac{1}{n}(n\bar x)^2=n\bar x^2$

(L1-2) $S_{YY}=\sum Y_i^2-n\bar Y^2,\quad S_{xY}=\sum x_iY_i-n\bar x\bar Y,\quad S_{xx}=\sum x_i^2-n\bar x^2$

증명:

$S_{YY}=\sum(Y_i-\bar Y)^2=\sum Y_i^2+\bar Y^2n-2\bar Y\sum Y_i=\sum Y_i^2+\bar Y^2n-2\bar Y(n\bar Y)\\=\sum Y_i^2-n\bar Y^2$

$S_{xY}=\sum(x_i-\bar x)(Y_i-\bar Y)=\sum x_iY_i-\bar x\sum Y_i-\bar Y\sum x_i+n\bar x\bar Y\\=\sum x_iY_i-\bar x(n\bar Y)-\bar Y(n\bar x)+n\bar x\bar Y=\sum x_iY_i-n\bar x \bar Y$

$S_{xx}=\sum(x_i-\bar x)^2=\sum x_i^2+\bar x^2n-2\bar x\sum x_i=\sum x_i^2+\bar x^2n-2\bar x(n\bar x)\\=\sum x_i^2-n\bar x^2$

(L1-3) $SSE=S_{YY}-\hat\beta_1S_{xY}=S_{YY}-\hat\beta_1^2S_{xx}$

증명:

$SSE=\sum(Y_i-\hat\beta_0-\hat\beta_1 x_i)^2=\sum((Y_i-\bar Y)-\hat\beta_1(x_i-\bar x))^2\\=S_{YY}+\hat\beta_1^2S_{xx}-2\hat\beta_1 S_{xY}=S_{YY}+\hat\beta_1S_{xY}-2\hat\beta_1 S_{xY}\\=S_{YY}-\hat\beta_1 S_{xY}=S_{YY}-\hat\beta_1^2S_{xx}$

(L1-4) $\sum(x_i-\bar x)=0,\quad\sum_i\sum_j(x_j-\bar x)\delta_{ij}=0$

증명:

$\sum(x_i-\bar x)=\sum x_i-n\bar x=n\bar x-n\bar x=0,\quad \sum_i\sum_j(x_j-\bar x)\delta_{ij}=\sum_i(x_i-\bar x)=0$

(L1-5) $0=\frac{\sum(x_i-\bar x)}{S_{xx}},\quad1=\frac{\sum(x_i-\bar x)x_i}{S_{xx}},\quad \hat\beta_1=\frac{\sum(x_i-\bar x)Y_i}{S_{xx}}$

증명:

$\sum(x_i-\bar x)=0$이고, $S_{xx}=\sum x_i^2-n\bar x^2=\sum x_i^2-\bar x\sum x_i=\sum(x_i-\bar x)x_i$이므로

$0=\frac{0}{S_{xx}}=\frac{\sum(x_i-\bar x)}{S_{xx}},\quad 1=\frac{S_{xx}}{S_{xx}}=\frac{\sum(x_i-\bar x)x_i}{S_{xx}}$

$\hat\beta_1=\frac{S_{xY}}{S_{xx}}=\frac{\sum(x_i-\bar x)(Y_i-\bar Y)}{S_{xx}}=\frac{\sum(x_i-\bar x)Y_i}{S_{xx}}-\frac{\bar Y\sum(x_i-\bar x)}{S_{xx}} =\frac{\sum(x_i-\bar x)Y_i}{S_{xx}}-0=\frac{\sum(x_i-\bar x)Y_i}{S_{xx}}$

모멘트 관련

(L2-1)

$E[Y]=\beta_0+\beta_1x,\quad V[Y]=\sigma^2,\quad E[Y_i]=\beta_0+\beta_1 x_i$

$V[Y_i]=\sigma^2,\quad Cov[Y_i,Y_j]=\sigma^2\delta_{ij}$

증명:

$E[Y]=\beta_0+\beta_1x+E[\epsilon]=\beta_0+\beta_1x+0=\beta_0+\beta_1x$

$V[Y]=V[\epsilon]=\sigma^2$

$E[Y_i]=\beta_0+\beta_1 x_i+E[\epsilon_i]=\beta_0+\beta_1 x_i+0=\beta_0+\beta_1 x_i$

$V[Y_i]=V[\epsilon_i]=\sigma^2$

$Cov[Y_i,Y_j]=V[Y_i]\delta_{ij}=\sigma^2\delta_{ij}$

(L2-2) $E[\bar Y]=\beta_0+\beta_1\bar x,\quad V[\bar Y]=\frac{\sigma^2}{n}$

증명:

$E[\bar Y]=\frac{1}{n}\sum E[Y_i]=\frac{1}{n}\cdot (\beta_0n+\beta_1 \sum x_i)=\beta_0+\beta_1\bar x$

$V[\bar Y]=\frac{1}{n^2}\sum V[Y_i]=\frac{1}{n^2}\cdot n\sigma^2=\frac{\sigma^2}{n}$

(L2-3) $Cov[\bar Y, \hat\beta_1]=0$

증명:

$Cov[\bar Y,\hat\beta_1]=Cov[\sum_i(\frac{1}{n})Y_i,\sum_j(\frac{x_j-\bar x}{S_{xx}})Y_j] \\=\sum_i\sum_j(\frac{1}{n})(\frac{x_j-\bar x}{S_{xx}})Cov[Y_i,Y_j] =\frac{\sigma^2}{nS_{xx}}\sum_i\sum_j(x_j-\bar x)\delta_{ij}=0$

(L2-4) $E[S_{YY}]=(n-1)\sigma^2+\beta_1^2S_{xx}$

증명:

$E[S_{YY}]=\sum E[Y_i^2]-nE[\bar Y^2]$이고,

$E[Y_i^2]=V[Y_i]+E[Y_i]^2=\sigma^2+\beta_0^2+\beta_1^2x_i^2+2\beta_0\beta_1x_i$

→ $\sum E[Y_i^2]=n\sigma^2+n\beta_0^2+\beta_1^2(\sum x_i^2)+2n\beta_0\beta_1(\bar x)$

$E[\bar Y^2]=V[\bar Y]+E[\bar Y]^2=\frac{\sigma^2}{n}+\beta_0^2+\beta_1^2\bar x^2+2\beta_0\beta_1\bar x$

→ $nE[\bar Y^2]=\sigma^2+n\beta_0^2+\beta_1^2(n\bar x^2)+2n\beta_0\beta_1\bar x$이므로,

$E[S_{YY}]=(n-1)\sigma^2+\beta_1^2(\sum x_i^2-n\bar x^2)=(n-1)\sigma^2+\beta_1^2S_{xx}$

728x90