본문 바로가기

Mathematics

‘표본분산의 분포’의 이해와 증명

카이제곱분포의 의의는 표본분산과 관련된 분포라는 것이다. 이것을 두고 카이제곱분포를 ‘표본분산의 분포’라고 표현하기도 한다. (하지만 엄밀히 말해서는 ‘표본분산에 자유도를 곱하고 모분산을 나눈것의 분포’라고 말해야 맞다.)

$$ \frac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1) $$

#1. 이해

이 사실의 증명을 하기 위해 먼저 $\frac{(n-1)S^2}{\sigma^2}$을 다음과 같이 변형해보자.

$$ \begin{split} &\sum_{i=1}^{n}(X_i-\overline{X})^2=\sum_{i=1}^{n}(X_i^2-2X_i\overline{X}+\overline{X}^2)=\sum_{i=1}^{n}X_i^2-2\overline{X}\sum_{i=1}^{n}X_i+n\overline{X}^2 \\ &=\sum_{i=1}^{n}X_i^2-2n\overline{X}^2+n\overline{X}^2=\sum_{i=1}^{n}X_i^2-n\overline{X}^2 \\ &=\sum_{i=1}^{n}(X_i-\mu)^2-n(\overline{X}-\mu)^2+2\mu\sum_{i=1}^{n}X_i-n\mu^2-2n\mu\overline{X}+n\mu^2 \\ &=\sum_{i=1}^{n}(X_i-\mu)^2-n(\overline{X}-\mu)^2 \\[6ex] &\frac{(n-1)S^2}{\sigma^2}=\frac{1}{\sigma^2}\sum_{i=1}^{n}(X_i-\overline{X})^2=\sum_{i=1}^{n}\left(\frac{X_i-\mu}{\sigma}\right)^2-\left(\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\right)^2 \end{split} $$

IID $X_i\sim\mathrm{N}(\mu,\sigma^2)$이므로, $\sum_{i=1}^{n}\left(\frac{X_i-\mu}{\sigma}\right)^2$는 자유도가 $n$인 카이제곱분포를 따른다. 그리고 $\left(\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\right)^2$은 표준정규분포=자유도가 1인 카이제곱분포를 따른다. 전자에서 후자를 뺀 것은, 직관적으로 봤을 때 자유도가 $(n-1)$인 카이제곱분포를 따른다고 생각할 수 있다.

그런데 과연 이런식으로 생각해도 될까? 카이제곱분포의 본질은 감마분포 $\Gamma(n/2,1/2)$이다. 감마분포의 정의에 의해 $\Gamma(r_1,\lambda)\ast\Gamma(r_2,\lambda)=\Gamma(r_1+r_2,\lambda)$, 즉 분포의 ‘덧셈’은 합성곱으로서 가능하다. 하지만 뺄셈이 가능하지는 않다.

따라서 이 방법은 직관적인 결과를 도출하지만 엄밀하지는 않다. 자유도를 탐구하는 다른 방법은 없을까? 지난 글에서 자유도의 본질은 결국 벡터공간의 차원수임을 밝혔다. 이런 관점으로 접근해보자.

#2. 증명

#2.1 뺄셈이 안되는 이유와 해결법

뺄셈이 안되는 이유는 뭘까? 빼는 것끼리 ‘동질적이지 않아서’ 그렇다. 만약 $\left(\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\right)^2=\left(\frac{X_1-\mu}{\sigma}\right)^2$이라고 하면, 뺄셈이 가능해진다.

$$ \begin{split} \frac{(n-1)S^2}{\sigma^2}&=\sum_{i=1}^{n}\left(\frac{X_i-\mu}{\sigma}\right)^2-\left(\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\right)^2 \\ &=\sum_{i=1}^{n}\left(\frac{X_i-\mu}{\sigma}\right)^2-\left(\frac{X_1-\mu}{\sigma}\right)^2 \\ &=\sum_{i=2}^{n}\left(\frac{X_i-\mu}{\sigma}\right)^2\sim\chi^2(n-1) \end{split} $$

즉 뒤에 빼는 것을 시그마의 첫번째 항으로 만드는 것이다. 그러면 ‘동질적’이게 되므로 뺄셈이 가능하다.

이 아이디어를 갖고 문제에 접근해보자. 지금 해결해야할 문제를 다음과 같이 요약하자. 식에서 ‘?’부분을 확실한 것으로 만들어야 한다.

$$ \begin{split} \frac{(n-1)S^2}{\sigma^2}&=\frac{1}{\sigma^2}\left(\sum_{i=1}^{n}X_i^2-n\overline{X}^2\right)\overset{?}{=}\frac{1}{\sigma^2}\left(\sum_{i=1}^{n}Y_i^2-Y_1^2\right)=\sum_{i=1}^{n}\left(\frac{Y_i}{\sigma}\right)^2-\left(\frac{Y_1}{\sigma}\right)^2=\sum_{i=2}^{n}\left(\frac{Y_i}{\sigma}\right)^2\overset{?}{\sim}\chi^2(n-1) \end{split} $$

여기서 $Y_i$는 $X_i$에 모종의 선형변환을 적용해서 얻을 수 있다. 다만 최종적인 결과물이 자유도가 $(n-1)$인 카이제곱분포를 따르도록 하려면, $Y_i(i=2,\cdots,n)$는 다음과 같은 조건을 만족해야 한다.


첫번째 ‘?’에 대해: 같아져야 하는 것끼리 대응시킨다.

(1-1) $\sum_{i=1}^{n}X_i^2=\sum_{i=1}^{n}Y_i^2$

(1-2) $n\overline{X}^2=Y_1^2$, i.e. $\overline{X}=\pm\frac{1}{\sqrt{n}}Y_1$


두번째 ‘?’에 대해: 변환 후 확률변수에 대한 요구다.

(2-1) $Y_i$는 $X_i$와 마찬가지로 정규분포를 따라야한다. 카이제곱분포는 표준정규분포를 따르는 확률변수의 제곱합의 분포이기 때문이다.

(2-2) $Y_i\perp Y_j(i\not=j)$이다. 즉, 변환전 $X_i$의 독립성은 변환후 $Y_i$에서도 유지되어야 한다. 카이제곱분포의 정의에서 독립성을 요구하기 때문이다.

(2-3) $\mathbb{E}[Y_i]=0$, $\mathrm{Var}[Y_i]=\sigma^2$. 최종식에서 $\frac{Y_i}{\sigma}$가 $Y_i$의 표준화가 되어야 한다. 카이제곱분포의 부품은 그냥 정규분포가 아니라 표준정규분포이기 때문이다.


요약하자면, 다음과 같은 확률벡터에 대해

$$ \mathbf{X}=(X_1,\cdots X_n), \mathbf{Y}=(Y_1,\cdots Y_n) $$

이상의 조건들을 모두 만족하는 선형변환 $\mathbf{P:Y=XP}$ 를 찾는 것이 목표다.

#2.2 직교기저를 통한 변환

다음과 같은 사실을 알고 있기 때문에 직교기저(Orthogonal Basis; 正交基)를 통한 변환으로 조건 (2-1), (2-2)를 만족시킬 수 있다.


서로 독립이며 정규분포를 따르는 확률변수 수열 $X_1$, $X_2$로부터 서로 독립이며 정규분포를 따르는 확률변수 수열 $X_1+X_2$, $X_1-X_2$을 생성할 수 있다.

그리고 $X_i\sim\mathrm{N}(\mu_i,\sigma^2_i)$이라고 할 때, $X_1\pm X_2\sim\mathrm{N}(\mu_1\pm\mu_2,\sigma^2_1+\sigma^2_2)$이다.


이 사실의 함의는 2차원 정규분포 벡터 $(X_1,X_2)$는 선형변환 $\begin{bmatrix} 1&1 \\ 1&-1 \end{bmatrix}$을 통해 새로운 2차원 정규분포 벡터 $(X_1+X_2,X_1-X_2)$로 변환될 수 있으며, 변환 전후의 벡터의 성분은 상호 독립성을 유지한다는 것이다.

다시말해 직교기저인 $X_1$, $X_2$가 또 다른 직교기저 $v_1= \begin{bmatrix} 1 \\ 1 \end{bmatrix}$, $v_2= \begin{bmatrix} 1 \\ -1 \end{bmatrix}$를 통해 새로운 직교기저 $X_1+X_2$, $X_1-X_2$으로 변환되었다는 뜻이다.

#2.3 직교변환

조건 (1-1)을 만족시키려고 한다. 먼저 제곱합 $\sum_{i=1}^{n}X_i^2$, $\sum_{i=1}^{n}Y_i^2$을 행렬과 벡터를 이용하여 나타내보자.

$$ \sum_{i=1}^{n}X_i^2=\mathbf{X\cdot X=XX^T},\space\sum_{i=1}^{n}Y_i^2=\mathbf{Y\cdot Y=YY^T} $$

$\sum_{i=1}^{n}X_i^2=\sum_{i=1}^{n}Y_i^2$, 즉 $\mathbf{XX^T}=\mathbf{YY^T}$가 되도록 하려면, $\mathbf{P}$는 직교행렬이면 좋을 것이다. 직교행렬이라면 다음이 성립하기 때문이다.

$$ \mathbf{XX^T=XIX^T=X(PP^T)X^T=XP(XP)^T=YY^T} $$

따라서 조건 (1-1)을 만족시키는 변환은 직교변환이다. 직교행렬의 열벡터는 정규직교기저(Orthonormal Basis; 规范正交基)가 되기 때문에, 조건 (2-1)과 (2-2)도 자동으로 만족시킨다.

#2.4 기저벡터 잡기

이상의 논의를 통해, 정규직교기저를 통한 변환을 고려해볼 수 있다. 지금까지의 논의를 요약하면 다음과 같고, 현재 조건 (1-1), (2-1), (2-2)를 만족하는 변환은 정규직교기저를 통한 변환, 즉 직교변환임을 알 수 있다.

즉, 변환후의 확률변수 $Y_i=\mathbf{X\cdot}\mathbf{v}_i$가 되며, $\mathbf{v}_i$는 $i$번째 정규직교기저 벡터다.

정규직교기저를 잡는 법은 여러가지다. 어떻게 잡을까? 되도록이면 조건 (1-2)을 만족시키려고 한다.

$$ \overline{X}=\frac{1}{n}\sum_{i=1}^{n}X_i=\frac{1}{\sqrt{n}}(X_1,\cdots,X_n)\cdot\frac{1}{\sqrt{n}}(1,\cdots,1)=\frac{1}{\sqrt{n}}Y_1=\frac{1}{\sqrt{n}}\mathbf{X\cdot}\mathbf{v}_1 $$

을 만족하면 좋으므로, $\mathbf{v}_1=\frac{1}{\sqrt{n}}(1,\cdots,1)^\mathbf{T}$로 놓는다.

첫번째 기저벡터를 정했으므로, 그 다음은 $\mathbf{v}_i(i=2,\cdots,n)$을 쭉쭉 구해나갈 수 있다. 구해낸 모든 기저벡터를 써보면 다음과 같다.

note: 이 과정은 사실 그람-슈미트 과정(Gram-Schmidt Process; 格拉姆-施密特过程)과 비슷하다.

#2.5 변환후의 평균과 (공)분산

지금까지의 논의를 통해 조건 (2-3)을 제외한 나머지를 모두 만족하는 변환을 찾았고, 그것은 바로 직교변환이었다. 그리고 직교행렬의 첫번째 열은 성분이 모두 $1/\sqrt{n}$이어야한다.

이제 마지막으로 변환후의 평균과 분산이 각각 $\mathbb{E}[Y_i]=0(i=2,\cdots,n)$, $\mathrm{Var}[Y_i]=\mathrm{Cov}[Y_i,Y_i]=\sigma^2$인지만 보면된다.

한편, $\mathrm{Var}[Y_i]=\mathrm{Cov}[Y_i,Y_i]$이므로, 좀더 일반적인 상황을 고려해보기 위해 $\mathrm{Cov}[Y_i,Y_j]$도 구해보자. 정말로 $Y_i \perp Y_j(i\not=j)$가 성립한다면, 즉 독립성이 유지된다면, $\mathrm{Cov}[Y_i,Y_j]=0$이어야 한다. (정규분포에서는 독립과 비상관이 동치임을 기억하자.)

요약하면 평균과 공분산은 다음과 같아야 한다.

$$ \mathbb{E}[Y_i]=0(i=2,\cdots,n) \\ \mathrm{Cov}[Y_i,Y_j]=\sigma^2\mathbf{1}(i=j) $$

실제로 계산을 해보면 정말 그렇다. 첫번째 기저벡터를 제외한 다른 모든 기저벡터의 성분의 합이 0인 것이 포인트다. $(\mathbf{v}i){s}$는 $\mathbf{v}_i$의 $s$번째 성분이다.

따라서 $Y_i/\sigma$는 $Y_i$의 표준화이며, $Y_i$끼리 독립이다. $\sum_{i=2}^{n}\left(\frac{Y_i}{\sigma}\right)^2$는 서로 독립이며 z분포를 따르는 확률변수를 $(n-1)$개 더한 것이다. 카이제곱분포의 정의에 의해,

$$ \frac{(n-1)S^2}{\sigma^2}=\sum_{i=2}^{n}\left(\frac{Y_i}{\sigma}\right)^2\sim\chi^2(n-1) $$

#3. 추가결론

위 증명을 통해 추가적인 결론을 얻을 수 있다.

$$ 표본평균과\enspace표본분산은\enspace서로\enspace독립이다. $$

$$ \overline{X}=\frac{1}{\sqrt{n}}Y_1,\space S^2=\frac{1}{n-1}(Y_2^2+\cdots +Y_n^2)\Rightarrow\overline{X}\perp S^2 $$

즉, 표본평균은 $Y_1$로만 표현되고, 표본평균은 $Y_i(i=2,\cdots,n)$로만 표현되므로, 표본평균은 표본분산과 독립이라는 것을 추가로 알 수있다. 또한, 표본평균과 관련된 $Z$ 통계량과 표본분산과 관련된 $\chi^2$ 통계량도 서로 독립이다.

'Mathematics' 카테고리의 다른 글

표본평균과 표본분산의 극한  (0) 2023.02.16
t분포  (0) 2023.02.16
자유도  (0) 2023.02.12
카이제곱분포  (0) 2023.02.12
z분포  (0) 2023.02.11