#1. 정의, 예시
수리통계학에서 자유도(Degree of Freedom; 自由度)는 통계량의 계산식에서 ‘서로 독립인 확률변수의 개수’이다.
예를 들어 카이제곱 통계량의 계산식에서는 서로 독립인 X2i가 n개 들어간다. (Xi가 서로 독립이므로 X2i도 서로 독립이다. ) 그리고 이 n개의 X2i는 자유롭게 값을 가질 수 있다. 따라서 카이제곱 통계량의 자유도는 n이다.
χ2:=X21+X22+⋯+X2n
표본평균의 계산식에서는 서로 독립인 Xi가 n개 들어간다. 그리고 이 n개의 Xi는 자유롭게 값을 가질 수 있다. 따라서 표본평균의 자유도는 n이다.
¯X=1n(X1+X2+⋯+Xn)
반면, 표본분산의 계산식에서는 서로 독립인 Xi가 n개 들어가지만, ¯X=1n∑ni=1Xi라는 제약이 하나 있다. 따라서 (n−1)개의 Xi만 자유롭게 값을 가지고, 나머지 1개인 Xj는 방정식 ¯X=1n∑ni=1Xi에 (n−1)개의 Xi 값을 대입하여 방정식을 푸는 방식으로 종속적으로 구해진다. 따라서 실질적으로 서로 독립이라고 할 만한 확률변수의 개수는 (n−1)개 있으므로 표본분산의 자유도는 (n−1)이 된다.
S2=1n−1[(X1−¯X)2+(X2−¯X)2+⋯+(Xn−¯X)2],¯X=1n(X1+X2+⋯+Xn)
#2. 의미, 중요성
이것은 마치 서로 독립인 n개의 벡터 Xi를 고르려고 했는데, 사실 Xi 사이에 다음과 같은 선형관계가 1가지 있어서 사실상 (n−1)개의 서로 독립인 벡터를 골라낸 것과 같은 이치다.
X1+X2+⋯+Xn=n¯X(X1−¯X)+(X2−¯X)+⋯+(Xn−¯X)=0
실제로 확률변수는 표본공간에서 실수로 가는 함수고, 또한 벡터공간의 원소로서 벡터라고 할 수 있다. 확률변수라는 함수는 벡터공간의 교환법칙, 결합법칙, 스칼라배 등의 성질을 모두 만족하기 때문이다.
확률변수 X:Ω→R가 이루는 벡터공간을 V라고 하면, 서로 독립인 X1,X2,⋯,Xn은 V의 n차원 부분공간을 이룬다. 반면, 똑같이 서로 독립인 X1−¯X,X2−¯X,⋯,Xn−¯X는 V의 (n−1)차원 부분공간을 이룬다. (X1−¯X)+(X2−¯X)+⋯+(Xn−¯X)=0이기 때문이다.
통계량은 IID Xi로 구성되므로 서로 독립인, 다시말해 실질적으로 자유롭게 값을 가질 수 있는 Xi의 개수가 몇 개인지가 매우 중요하다. 따라서 카이제곱분포, t분포, F분포 등의 표본추출분포는 모두 통계량의 자유도를 모수로 갖는다.
#3. 오해
표본분산과 표본평균의 계산식을 보자.
S2=1n−1[(X1−¯X)2+(X2−¯X)2+⋯+(Xn−¯X)2],¯X=1n(X1+X2+⋯+Xn)
각 계산식의 분모는 각 계산식의 자유도다. 하지만 통계량의 계산식의 분모는 그저 어떤 기준으로 정한 상수일 뿐, 자유도와는 아무런 상관이 없다.
예를 들어 표본의 2차 중심적률 B2도 자유도가 (n−1)인데, 분모는 n이다.
B2:=1n[(X1−¯X)2+(X2−¯X)2+⋯+(Xn−¯X)2]
즉, 자주 쓰이는 통계량인 표본분산과 표본평균의 분모가 자유도와 같은 것은 순전히 우연이다. 분모가 각각 (n−1), n인 이유는 자유도가 아닌 추정량의 불편성과 관련이 있다.
'Mathematics' 카테고리의 다른 글
t분포 (0) | 2023.02.16 |
---|---|
‘표본분산의 분포’의 이해와 증명 (0) | 2023.02.12 |
카이제곱분포 (0) | 2023.02.12 |
z분포 (0) | 2023.02.11 |
분위수 (0) | 2023.02.11 |