본문 바로가기

확률론과 수리통계

자유도

#1. 정의, 예시

수리통계학에서 자유도(Degree of Freedom; 自由度)는 통계량의 계산식에서 ‘서로 독립인 확률변수의 개수’이다.

예를 들어 카이제곱 통계량의 계산식에서는 서로 독립인 $X_i^2$가 $n$개 들어간다. ($X_i$가 서로 독립이므로 $X_i^2$도 서로 독립이다. ) 그리고 이 $n$개의 $X_i^2$는 자유롭게 값을 가질 수 있다. 따라서 카이제곱 통계량의 자유도는 $n$이다.

$$ \chi^2:=X_1^2+X_2^2+\cdots+X_n^2 $$

표본평균의 계산식에서는 서로 독립인 $X_i$가 $n$개 들어간다. 그리고 이 $n$개의 $X_i$는 자유롭게 값을 가질 수 있다. 따라서 표본평균의 자유도는 $n$이다.

$$ \overline{X}=\frac{1}{n}(X_1+X_2+\cdots+X_n) $$

반면, 표본분산의 계산식에서는 서로 독립인 $X_i$가 $n$개 들어가지만, $\overline{X}=\frac{1}{n}\sum_{i=1}^{n}X_i$라는 제약이 하나 있다. 따라서 $(n-1)$개의 $X_i$만 자유롭게 값을 가지고, 나머지 1개인 $X_j$는 방정식 $\overline{X}=\frac{1}{n}\sum_{i=1}^{n}X_i$에 $(n-1)$개의 $X_i$ 값을 대입하여 방정식을 푸는 방식으로 종속적으로 구해진다. 따라서 실질적으로 서로 독립이라고 할 만한 확률변수의 개수는 $(n-1)$개 있으므로 표본분산의 자유도는 $(n-1)$이 된다.

$$ \begin{split} &S^2=\frac{1}{n-1}[(X_1-\overline{X})^2+(X_2-\overline{X})^2+\cdots+(X_n-\overline{X})^2], \\ &\overline{X}=\frac{1}{n}(X_1+X_2+\cdots+X_n) \end{split} $$

#2. 의미, 중요성

이것은 마치 서로 독립인 $n$개의 벡터 $X_i$를 고르려고 했는데, 사실 $X_i$ 사이에 다음과 같은 선형관계가 1가지 있어서 사실상 $(n-1)$개의 서로 독립인 벡터를 골라낸 것과 같은 이치다.

$$ X_1+X_2+\cdots+X_n=n\overline{X} \\ (X_1-\overline{X})+(X_2-\overline{X})+\cdots+(X_n-\overline{X})=0 $$

실제로 확률변수는 표본공간에서 실수로 가는 함수고, 또한 벡터공간의 원소로서 벡터라고 할 수 있다. 확률변수라는 함수는 벡터공간의 교환법칙, 결합법칙, 스칼라배 등의 성질을 모두 만족하기 때문이다.

확률변수 $X:\Omega\to\mathbb{R}$가 이루는 벡터공간을 $V$라고 하면, 서로 독립인 $X_1,X_2,\cdots,X_n$은 $V$의 $n$차원 부분공간을 이룬다. 반면, 똑같이 서로 독립인 $X_1-\overline{X},X_2-\overline{X},\cdots,X_n-\overline{X}$는 $V$의 $(n-1)$차원 부분공간을 이룬다. $(X_1-\overline{X})+(X_2-\overline{X})+\cdots+(X_n-\overline{X})=0$이기 때문이다.

통계량은 IID $X_i$로 구성되므로 서로 독립인, 다시말해 실질적으로 자유롭게 값을 가질 수 있는 $X_i$의 개수가 몇 개인지가 매우 중요하다. 따라서 카이제곱분포, t분포, F분포 등의 표본추출분포는 모두 통계량의 자유도를 모수로 갖는다.

#3. 오해

표본분산과 표본평균의 계산식을 보자.

$$ \begin{split} &S^2=\frac{1}{n-1}[(X_1-\overline{X})^2+(X_2-\overline{X})^2+\cdots+(X_n-\overline{X})^2], \\ &\overline{X}=\frac{1}{n}(X_1+X_2+\cdots+X_n) \end{split} $$

각 계산식의 분모는 각 계산식의 자유도다. 하지만 통계량의 계산식의 분모는 그저 어떤 기준으로 정한 상수일 뿐, 자유도와는 아무런 상관이 없다.

예를 들어 표본의 2차 중심적률 $B_2$도 자유도가 $(n-1)$인데, 분모는 $n$이다.

$$ B_2:=\frac{1}{n}[(X_1-\overline{X})^2+(X_2-\overline{X})^2+\cdots+(X_n-\overline{X})^2] $$

즉, 자주 쓰이는 통계량인 표본분산과 표본평균의 분모가 자유도와 같은 것은 순전히 우연이다. 분모가 각각 $(n-1)$, $n$인 이유는 자유도가 아닌 추정량의 불편성과 관련이 있다.

'확률론과 수리통계' 카테고리의 다른 글

t분포  (0) 2023.02.16
‘표본분산의 분포’의 이해와 증명  (0) 2023.02.12
카이제곱분포  (0) 2023.02.12
z분포  (0) 2023.02.11
분위수  (0) 2023.02.11