본문 바로가기

확률론과 수리통계

‘표본분산의 분포’의 이해와 증명

카이제곱분포의 의의는 표본분산과 관련된 분포라는 것이다. 이것을 두고 카이제곱분포를 ‘표본분산의 분포’라고 표현하기도 한다. (하지만 엄밀히 말해서는 ‘표본분산에 자유도를 곱하고 모분산을 나눈것의 분포’라고 말해야 맞다.)

$$ \frac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1) $$

#1. 이해

이 사실의 증명을 하기 위해 먼저 $\frac{(n-1)S^2}{\sigma^2}$을 다음과 같이 변형해보자.

$$ \begin{split} &\sum_{i=1}^{n}(X_i-\overline{X})^2=\sum_{i=1}^{n}(X_i^2-2X_i\overline{X}+\overline{X}^2)=\sum_{i=1}^{n}X_i^2-2\overline{X}\sum_{i=1}^{n}X_i+n\overline{X}^2 \\ &=\sum_{i=1}^{n}X_i^2-2n\overline{X}^2+n\overline{X}^2=\sum_{i=1}^{n}X_i^2-n\overline{X}^2 \\ &=\sum_{i=1}^{n}(X_i-\mu)^2-n(\overline{X}-\mu)^2+2\mu\sum_{i=1}^{n}X_i-n\mu^2-2n\mu\overline{X}+n\mu^2 \\ &=\sum_{i=1}^{n}(X_i-\mu)^2-n(\overline{X}-\mu)^2 \\[6ex] &\frac{(n-1)S^2}{\sigma^2}=\frac{1}{\sigma^2}\sum_{i=1}^{n}(X_i-\overline{X})^2=\sum_{i=1}^{n}\left(\frac{X_i-\mu}{\sigma}\right)^2-\left(\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\right)^2 \end{split} $$

IID $X_i\sim\mathrm{N}(\mu,\sigma^2)$이므로, $\sum_{i=1}^{n}\left(\frac{X_i-\mu}{\sigma}\right)^2$는 자유도가 $n$인 카이제곱분포를 따른다. 그리고 $\left(\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\right)^2$은 표준정규분포=자유도가 1인 카이제곱분포를 따른다. 전자에서 후자를 뺀 것은, 직관적으로 봤을 때 자유도가 $(n-1)$인 카이제곱분포를 따른다고 생각할 수 있다.

그런데 과연 이런식으로 생각해도 될까? 카이제곱분포의 본질은 감마분포 $\Gamma(n/2,1/2)$이다. 감마분포의 정의에 의해 $\Gamma(r_1,\lambda)\ast\Gamma(r_2,\lambda)=\Gamma(r_1+r_2,\lambda)$, 즉 분포의 ‘덧셈’은 합성곱으로서 가능하다. 하지만 뺄셈이 가능하지는 않다.

따라서 이 방법은 직관적인 결과를 도출하지만 엄밀하지는 않다. 자유도를 탐구하는 다른 방법은 없을까? 지난 글에서 자유도의 본질은 결국 벡터공간의 차원수임을 밝혔다. 이런 관점으로 접근해보자.

#2. 증명

#2.1 뺄셈이 안되는 이유와 해결법

뺄셈이 안되는 이유는 뭘까? 빼는 것끼리 ‘동질적이지 않아서’ 그렇다. 만약 $\left(\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\right)^2=\left(\frac{X_1-\mu}{\sigma}\right)^2$이라고 하면, 뺄셈이 가능해진다.

$$ \begin{split} \frac{(n-1)S^2}{\sigma^2}&=\sum_{i=1}^{n}\left(\frac{X_i-\mu}{\sigma}\right)^2-\left(\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\right)^2 \\ &=\sum_{i=1}^{n}\left(\frac{X_i-\mu}{\sigma}\right)^2-\left(\frac{X_1-\mu}{\sigma}\right)^2 \\ &=\sum_{i=2}^{n}\left(\frac{X_i-\mu}{\sigma}\right)^2\sim\chi^2(n-1) \end{split} $$

즉 뒤에 빼는 것을 시그마의 첫번째 항으로 만드는 것이다. 그러면 ‘동질적’이게 되므로 뺄셈이 가능하다.

이 아이디어를 갖고 문제에 접근해보자. 지금 해결해야할 문제를 다음과 같이 요약하자. 식에서 ‘?’부분을 확실한 것으로 만들어야 한다.

$$ \begin{split} \frac{(n-1)S^2}{\sigma^2}&=\frac{1}{\sigma^2}\left(\sum_{i=1}^{n}X_i^2-n\overline{X}^2\right)\overset{?}{=}\frac{1}{\sigma^2}\left(\sum_{i=1}^{n}Y_i^2-Y_1^2\right)=\sum_{i=1}^{n}\left(\frac{Y_i}{\sigma}\right)^2-\left(\frac{Y_1}{\sigma}\right)^2=\sum_{i=2}^{n}\left(\frac{Y_i}{\sigma}\right)^2\overset{?}{\sim}\chi^2(n-1) \end{split} $$

여기서 $Y_i$는 $X_i$에 모종의 선형변환을 적용해서 얻을 수 있다. 다만 최종적인 결과물이 자유도가 $(n-1)$인 카이제곱분포를 따르도록 하려면, $Y_i(i=2,\cdots,n)$는 다음과 같은 조건을 만족해야 한다.


첫번째 ‘?’에 대해: 같아져야 하는 것끼리 대응시킨다.

(1-1) $\sum_{i=1}^{n}X_i^2=\sum_{i=1}^{n}Y_i^2$

(1-2) $n\overline{X}^2=Y_1^2$, i.e. $\overline{X}=\pm\frac{1}{\sqrt{n}}Y_1$


두번째 ‘?’에 대해: 변환 후 확률변수에 대한 요구다.

(2-1) $Y_i$는 $X_i$와 마찬가지로 정규분포를 따라야한다. 카이제곱분포는 표준정규분포를 따르는 확률변수의 제곱합의 분포이기 때문이다.

(2-2) $Y_i\perp Y_j(i\not=j)$이다. 즉, 변환전 $X_i$의 독립성은 변환후 $Y_i$에서도 유지되어야 한다. 카이제곱분포의 정의에서 독립성을 요구하기 때문이다.

(2-3) $\mathbb{E}[Y_i]=0$, $\mathrm{Var}[Y_i]=\sigma^2$. 최종식에서 $\frac{Y_i}{\sigma}$가 $Y_i$의 표준화가 되어야 한다. 카이제곱분포의 부품은 그냥 정규분포가 아니라 표준정규분포이기 때문이다.


요약하자면, 다음과 같은 확률벡터에 대해

$$ \mathbf{X}=(X_1,\cdots X_n), \mathbf{Y}=(Y_1,\cdots Y_n) $$

이상의 조건들을 모두 만족하는 선형변환 $\mathbf{P:Y=XP}$ 를 찾는 것이 목표다.

#2.2 직교기저를 통한 변환

다음과 같은 사실을 알고 있기 때문에 직교기저(Orthogonal Basis; 正交基)를 통한 변환으로 조건 (2-1), (2-2)를 만족시킬 수 있다.


서로 독립이며 정규분포를 따르는 확률변수 수열 $X_1$, $X_2$로부터 서로 독립이며 정규분포를 따르는 확률변수 수열 $X_1+X_2$, $X_1-X_2$을 생성할 수 있다.

그리고 $X_i\sim\mathrm{N}(\mu_i,\sigma^2_i)$이라고 할 때, $X_1\pm X_2\sim\mathrm{N}(\mu_1\pm\mu_2,\sigma^2_1+\sigma^2_2)$이다.


이 사실의 함의는 2차원 정규분포 벡터 $(X_1,X_2)$는 선형변환 $\begin{bmatrix} 1&1 \\ 1&-1 \end{bmatrix}$을 통해 새로운 2차원 정규분포 벡터 $(X_1+X_2,X_1-X_2)$로 변환될 수 있으며, 변환 전후의 벡터의 성분은 상호 독립성을 유지한다는 것이다.

다시말해 직교기저인 $X_1$, $X_2$가 또 다른 직교기저 $v_1= \begin{bmatrix} 1 \\ 1 \end{bmatrix}$, $v_2= \begin{bmatrix} 1 \\ -1 \end{bmatrix}$를 통해 새로운 직교기저 $X_1+X_2$, $X_1-X_2$으로 변환되었다는 뜻이다.

#2.3 직교변환

조건 (1-1)을 만족시키려고 한다. 먼저 제곱합 $\sum_{i=1}^{n}X_i^2$, $\sum_{i=1}^{n}Y_i^2$을 행렬과 벡터를 이용하여 나타내보자.

$$ \sum_{i=1}^{n}X_i^2=\mathbf{X\cdot X=XX^T},\space\sum_{i=1}^{n}Y_i^2=\mathbf{Y\cdot Y=YY^T} $$

$\sum_{i=1}^{n}X_i^2=\sum_{i=1}^{n}Y_i^2$, 즉 $\mathbf{XX^T}=\mathbf{YY^T}$가 되도록 하려면, $\mathbf{P}$는 직교행렬이면 좋을 것이다. 직교행렬이라면 다음이 성립하기 때문이다.

$$ \mathbf{XX^T=XIX^T=X(PP^T)X^T=XP(XP)^T=YY^T} $$

따라서 조건 (1-1)을 만족시키는 변환은 직교변환이다. 직교행렬의 열벡터는 정규직교기저(Orthonormal Basis; 规范正交基)가 되기 때문에, 조건 (2-1)과 (2-2)도 자동으로 만족시킨다.

#2.4 기저벡터 잡기

이상의 논의를 통해, 정규직교기저를 통한 변환을 고려해볼 수 있다. 지금까지의 논의를 요약하면 다음과 같고, 현재 조건 (1-1), (2-1), (2-2)를 만족하는 변환은 정규직교기저를 통한 변환, 즉 직교변환임을 알 수 있다.

즉, 변환후의 확률변수 $Y_i=\mathbf{X\cdot}\mathbf{v}_i$가 되며, $\mathbf{v}_i$는 $i$번째 정규직교기저 벡터다.

정규직교기저를 잡는 법은 여러가지다. 어떻게 잡을까? 되도록이면 조건 (1-2)을 만족시키려고 한다.

$$ \overline{X}=\frac{1}{n}\sum_{i=1}^{n}X_i=\frac{1}{\sqrt{n}}(X_1,\cdots,X_n)\cdot\frac{1}{\sqrt{n}}(1,\cdots,1)=\frac{1}{\sqrt{n}}Y_1=\frac{1}{\sqrt{n}}\mathbf{X\cdot}\mathbf{v}_1 $$

을 만족하면 좋으므로, $\mathbf{v}_1=\frac{1}{\sqrt{n}}(1,\cdots,1)^\mathbf{T}$로 놓는다.

첫번째 기저벡터를 정했으므로, 그 다음은 $\mathbf{v}_i(i=2,\cdots,n)$을 쭉쭉 구해나갈 수 있다. 구해낸 모든 기저벡터를 써보면 다음과 같다.

note: 이 과정은 사실 그람-슈미트 과정(Gram-Schmidt Process; 格拉姆-施密特过程)과 비슷하다.

#2.5 변환후의 평균과 (공)분산

지금까지의 논의를 통해 조건 (2-3)을 제외한 나머지를 모두 만족하는 변환을 찾았고, 그것은 바로 직교변환이었다. 그리고 직교행렬의 첫번째 열은 성분이 모두 $1/\sqrt{n}$이어야한다.

이제 마지막으로 변환후의 평균과 분산이 각각 $\mathbb{E}[Y_i]=0(i=2,\cdots,n)$, $\mathrm{Var}[Y_i]=\mathrm{Cov}[Y_i,Y_i]=\sigma^2$인지만 보면된다.

한편, $\mathrm{Var}[Y_i]=\mathrm{Cov}[Y_i,Y_i]$이므로, 좀더 일반적인 상황을 고려해보기 위해 $\mathrm{Cov}[Y_i,Y_j]$도 구해보자. 정말로 $Y_i \perp Y_j(i\not=j)$가 성립한다면, 즉 독립성이 유지된다면, $\mathrm{Cov}[Y_i,Y_j]=0$이어야 한다. (정규분포에서는 독립과 비상관이 동치임을 기억하자.)

요약하면 평균과 공분산은 다음과 같아야 한다.

$$ \mathbb{E}[Y_i]=0(i=2,\cdots,n) \\ \mathrm{Cov}[Y_i,Y_j]=\sigma^2\mathbf{1}(i=j) $$

실제로 계산을 해보면 정말 그렇다. 첫번째 기저벡터를 제외한 다른 모든 기저벡터의 성분의 합이 0인 것이 포인트다. $(\mathbf{v}i){s}$는 $\mathbf{v}_i$의 $s$번째 성분이다.

따라서 $Y_i/\sigma$는 $Y_i$의 표준화이며, $Y_i$끼리 독립이다. $\sum_{i=2}^{n}\left(\frac{Y_i}{\sigma}\right)^2$는 서로 독립이며 z분포를 따르는 확률변수를 $(n-1)$개 더한 것이다. 카이제곱분포의 정의에 의해,

$$ \frac{(n-1)S^2}{\sigma^2}=\sum_{i=2}^{n}\left(\frac{Y_i}{\sigma}\right)^2\sim\chi^2(n-1) $$

#3. 추가결론

위 증명을 통해 추가적인 결론을 얻을 수 있다.

$$ 표본평균과\enspace표본분산은\enspace서로\enspace독립이다. $$

$$ \overline{X}=\frac{1}{\sqrt{n}}Y_1,\space S^2=\frac{1}{n-1}(Y_2^2+\cdots +Y_n^2)\Rightarrow\overline{X}\perp S^2 $$

즉, 표본평균은 $Y_1$로만 표현되고, 표본평균은 $Y_i(i=2,\cdots,n)$로만 표현되므로, 표본평균은 표본분산과 독립이라는 것을 추가로 알 수있다. 또한, 표본평균과 관련된 $Z$ 통계량과 표본분산과 관련된 $\chi^2$ 통계량도 서로 독립이다.

'확률론과 수리통계' 카테고리의 다른 글

표본평균과 표본분산의 극한  (0) 2023.02.16
t분포  (0) 2023.02.16
자유도  (0) 2023.02.12
카이제곱분포  (0) 2023.02.12
z분포  (0) 2023.02.11