본문 바로가기

확률론과 수리통계

F분포

# 용도, 정의

정규분포의 자손들인 z분포, 카이제곱분포, t분포는 모두 구간추정과 가설검정에 이용되는 분포다. z분포와 t분포는 모평균과 관련해서, 카이제곱분포는 모분산과 관련해서 이용된다. t분포 평균과 관련되었지만 분산을 모를때 쓰며, z분포와 카이제곱분포를 이용해서 만든다.

단일 모평균이 아닌 모평균의 차이와 관련해서도 이 3가지 분포가 등장한다. 모분산의 비와 관련해서는 새로운 분포가 필요한데 그것이 바로 F분포다. F분포는 분산의 비와 관련된 분포이며, 분산은 카이제곱분포와 관련있으므로, F분포를 따르는 확률변수($F$ 통계량)는 서로 독립이며 두 카이제곱분포를 따르는 확률변수의 비로 이루어진다.

note: F분포에 카이제곱분포가 들어가는 이상, F분포와 관련된 구간추정과 검정에서 모집단은 정규분포를 따라야 한다는 제약이 붙는다.

흔히 다음과 같은 식이 구간추정과 가설검정 등에서 이용된다. 모집단 $X_1$, $X_2$에 대해

$$ F:=\frac {S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2} =\frac {\frac{(n_1-1)S_1^2}{\sigma_1^2}/(n_1-1)} {\frac{(n_2-1)S_2^2}{\sigma_2^2}/(n_2-1)} \sim F(n_1-1,n_2-1) $$

먼저 자유도가 $n_i-1$인 카이제곱분포 확률변수를 다음과 같이 나타낸다.

$$ \chi_{n_i-1}^2:=\frac{(n_i-1)S_i^2}{\sigma_i^2}\sim\chi^2(n_i-1) $$

그러면 자유도가 $(n_1-1,n_2-1)$인 F분포 확률변수는 다음과 같이 정의된다. 단, $\chi_{n_i-1}^2$는 서로 독립이다.

$$ F_{n_1-1,n_2-1}:=\frac{\chi_{n_1-1}^2/(n_1-1)}{\chi_{n_2-1}^2/(n_2-1)}\sim F(n_1-1,n_2-1) $$

만약 $\mu_1$, $\mu_2$를 안다면 $F$ 통계량을 만들 때 다음과 같이 표본분산 $S_i^2$ 대신 표본의 2차 중심적률 $(\beta_2)_i$을 사용할 수 있지만, 이런 경우는 드물다.

$$ F _{n _1,n _2}:=\frac {(\beta _2) _1/\sigma _1^2}{(\beta _2) _2/\sigma _2^2} =\frac {\frac{n _1(\beta _2) _1}{\sigma _1^2}/n _1} {\frac{n _2(\beta _2) _2}{\sigma _2^2}/n _2}=\frac{\chi _{n _1}^2/n _1}{\chi _{n _2}^2/n _2} \sim F(n _1,n _2) $$

# F분포의 확률밀도함수

이제 F분포의 확률밀도함수를 구해보자. 계산의 편리함을 위해 다음과 같이 카이제곱분포 확률변수를 $U^2$, $V^2$, 자유도를 $m$, $n$으로 설정한다.

$$ U^2\sim\chi^2(m),\space V^2\sim\chi^2(n)\Longrightarrow F:=\frac{U^2/m}{V^2/n}\sim F(m,n) $$

결과물: F분포의 확률밀도함수는 다음과 같다.

$$ f_F(x)=\frac{\Gamma(\frac{m+n}{2})}{\Gamma(\frac{m}{2})\Gamma(\frac{n}{2})}(\frac{m}{n})^{\frac{m}{2}}x^{\frac{m}{2}-1}(1+\frac{m}{n}x)^{-\frac{m+n}{2}}\mathbf{1}(x>0) $$

# F분포의 성질


(1) $F(m,n)=1/F(n,m)$

단순히 두 카이제곱분포 확률변수의 위치를 바꾼 것이라고 이해하면 된다. 나눗셈의 순서를 바꿔도 자유도 위치만 다른 같은 분포가 나온다는 것은 F분포 특유의 성질이다. t분포는 이런 성질이 없다.


(2) $F_{1-\alpha}(m,n)=1/F_{\alpha}(n,m)$

분위수를 통일해서 모분산 관련 구간추정과 가설검정을 쉽게 해주는 중요한 성질이다. $1-\alpha$를 $\alpha$로 바꾸는 대신, 역수를 취하고 자유도의 자리를 바꿔준다.

증명: 분위수의 정의에 의해

$$ P(\frac{U^2/m}{V^2/n}\le F_{\alpha}(m,n))=1-\alpha $$

이것을 변형하면

$$ P(\frac{V^2/n}{U^2/m}\ge \frac{1}{F_{\alpha}(m,n)})=1-\alpha \\ 1-P(\frac{V^2/n}{U^2/m}\le \frac{1}{F_{\alpha}(m,n)})=1-\alpha \\ P(\frac{V^2/n}{U^2/m}\le \frac{1}{F_{\alpha}(m,n)})=\alpha\cdots(a) $$

또 다시 분위수의 정의에 의해

$$ P(\frac{V^2/n}{U^2/m}\le F_{\alpha}(n,m))=1-\alpha $$

이것을 변형하면($\alpha$자리에 $1-\alpha$를 넣는다.)

$$ P(\frac{V^2/n}{U^2/m}\le F_{1-\alpha}(n,m))=\alpha\cdots(b) $$

$(a)$와 $(b)$가 모두 성립하므로 $\frac{1}{F_{\alpha}(m,n)}=F_{1-\alpha}(n,m)$가 성립한다.


(3) $F(1,n)=t^2(n)$

t분포의 정의를 떠올려보자. z분포 확률변수와 자유도가 $n$인 카이제곱분포 확률변수로 만들어진다.

$$ T_n:=\frac{Z}{\sqrt{\chi^2_n/n}} $$

이것을 제곱하면 다음과 같다. 카이제곱분포의 정의에 의해 $Z^2=\chi_1^2$이 되기 때문이다.

$$ T_n^2=\frac{Z^2}{\chi^2_n/n}=\frac{\chi_1^2/1}{\chi^2_n/n}=F_{1,n} $$