본문 바로가기

분류 전체보기

(114)
t분포 요약: #1. t분포의 2가지 정의 $Z$ 통계량과 그것의 분포인 z분포는 유용하지만 단점이 하나 있는데, 바로 통계량에 모분산 $\sigma^2$이 들어가는 것이다. 실제 응용에서는 모분산을 알 수 없으므로, 이 모분산을 표본분산 $S^2$으로 대체한 $T$ 통계량과 t분포를 생각하게 된다. (t분포의 1번째 정의) 다음과 같이 정의된 통계량 $T$의 분포를 자유도가 $(n-1)$인 t분포라고 하며, 기호로는 $t(n-1)$로 나타낸다. $$ T:=\frac{\overline{X}-\mu}{S/\sqrt{n}}\sim t(n-1) $$ t분포의 자유도가 $(n-1)$인 이유는 표본분산의 자유도가 $(n-1)$이기 때문이다. 한편, $T$ 통계량은 다음과 같은 변형이 가능하다. $$ T:=\frac{\o..
‘표본분산의 분포’의 이해와 증명 카이제곱분포의 의의는 표본분산과 관련된 분포라는 것이다. 이것을 두고 카이제곱분포를 ‘표본분산의 분포’라고 표현하기도 한다. (하지만 엄밀히 말해서는 ‘표본분산에 자유도를 곱하고 모분산을 나눈것의 분포’라고 말해야 맞다.) $$ \frac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1) $$ #1. 이해 이 사실의 증명을 하기 위해 먼저 $\frac{(n-1)S^2}{\sigma^2}$을 다음과 같이 변형해보자. $$ \begin{split} &\sum_{i=1}^{n}(X_i-\overline{X})^2=\sum_{i=1}^{n}(X_i^2-2X_i\overline{X}+\overline{X}^2)=\sum_{i=1}^{n}X_i^2-2\overline{X}\sum_{i=1}^{n}X_i..
자유도 #1. 정의, 예시 수리통계학에서 자유도(Degree of Freedom; 自由度)는 통계량의 계산식에서 ‘서로 독립인 확률변수의 개수’이다. 예를 들어 카이제곱 통계량의 계산식에서는 서로 독립인 $X_i^2$가 $n$개 들어간다. ($X_i$가 서로 독립이므로 $X_i^2$도 서로 독립이다. ) 그리고 이 $n$개의 $X_i^2$는 자유롭게 값을 가질 수 있다. 따라서 카이제곱 통계량의 자유도는 $n$이다. $$ \chi^2:=X_1^2+X_2^2+\cdots+X_n^2 $$ 표본평균의 계산식에서는 서로 독립인 $X_i$가 $n$개 들어간다. 그리고 이 $n$개의 $X_i$는 자유롭게 값을 가질 수 있다. 따라서 표본평균의 자유도는 $n$이다. $$ \overline{X}=\frac{1}{n}(X_1+..
카이제곱분포 #1. 정의 모집단 $X\sim\mathrm{N}(0,1)$에서 크기가 $n$인 단순무작위표본 $X_1, X_2,\cdots,X_n$을 추출했다고 가정하자. 이때 통계량 $\chi^2:=X_1^2+X_2^2+\cdots+X_n^2$의 분포를 자유도가 $n$인 카이제곱분포(Chi-squared Distribution; 卡方分布)이라고 하며, 기호로는 $\chi^2(n)$으로 나타낸다. 카이제곱분포의 정의에 의해, $\chi^2\sim\chi^2(n)$이다. 한편, 지난 글에서 표준정규분포를 따르는 확률변수의 제곱합은 $\Gamma(n/2,1/2)$를 따르는 것을 유도했다. (표본추출분포 참조.) 따라서 카이제곱분포의 확률밀도함수는 다음과 같이 주어진다. $$ f_{\chi^2}(k)= \begin{case..
z분포 요약: #1. 정의 임의의 모집단 $X$에서 크기가 $n$인 단순무작위표본 $X_1, X_2,\cdots, X_n$을 추출했다고 가정하자. 중심극한정리에 의해 통계량 $Z:=\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}$는 표준정규분포 $\mathrm{N}(0,1)$에 분포수렴한다. 따라서 $n$이 충분히 클 때 $Z\sim\mathrm{N}(0,1)$이라고 표현할 수 있으며, 이 이유로 표준정규분포를 z분포라고도 한다. z분포의 확률밀도함수는 곧 표준정규분포의 확률밀도함수다. $$ f_Z(z)=\frac{1}{\sqrt{2\pi}}e^{-\frac{z^2}{2}} $$ #2. 모집단의 분포는 상관없다. ‘임의의 모집단’이라는 것이 중요하다. 모집단의 분포와 상관없이 IID인 ..
분위수 분위수는 모수추정, 가설검정 등 각종 통계기법에 등장하므로 반드시 정리해두어야 한다. 당장 오늘 본 논문도 구간추정을 하는데 이 개념을 자연스럽게 쓰고 있었다. #1. 정의 어떤 모집단의 확률분포 $F$(또는 확률변수 $X$)의 제$(1-\alpha)$ 분위수(Quantile; 分位数) $F_{\alpha}$는 다음 등식을 만족하는 모수다. $$ F(F_{\alpha})=P(X\le F_{\alpha})=\int_{-\infty}^{F_{\alpha}}f(x)\space dx=1-\alpha $$ 분위수를 누적분포함수의 역함수로 나타내기도 한다. $$ F_\alpha:=F^{-1}(1-\alpha) $$ 분위수는 수식보다 그림으로 접근하는 편이 이해가 쉽다. 쉽게 말해 어떤 데이터를 크기 순으로 나열했더..
경험적 분포함수 #1. 정의 모집단 $X$로부터 표본 $X_1,\cdots,X_n$을 추출했다고 하자. 이때, 다음과 같이 경험적 분포함수(Empirical Distribution Function, EDF; 经验分布函数) $F_n(x)$를 얻을 수 있다. $$ F_n(x):=\frac{\sum_{i=1}^{n}\mathbf{1}(X_i\le x)}{n}=\begin{cases}0,&x
순서통계량과 베타분포 모집단이 단위구간 위의 균등분포 $\mathrm{U}[0,1]$일 때, $k$번째 순서통계량 $X_{(k)}$의 확률밀도는 $$ \begin{split} f_{(k)}(x)&=\frac{n!}{(k-1)!(n-k)!}x^{k-1}(1-x)^{n-k}\mathbf{1}_{[0,1]}(x) \end{split} $$ 이 되는데, 다름 아닌 베타분포 $\mathrm{Beta}(k,n-k+1)$의 확률밀도다. 지난 글에서 베타분포를 유도할 때는 독립시행의 성공확률로 PDF를 나타냈고, 실수구간 전체에서 적분값이 1임을 이용하여 정규화 상수를 구해냈다. 이번에는 순서통계량의 관점으로 접근해본 것이다. $f_{(k)}(x)$를 베타분포의 확률밀도로 생각한다면, 총 $(n-1)$회의 베르누이 독립시행 중 성공횟수는 ..
순서통계량 순서통계량과 그 분포는 데이터의 순위를 중시하는 비모수검정, 질적 데이터 분석분야에 자주 쓰이므로 정리해둔다. #1. 순서통계량 모집단 $X$에서 추출한 표본 $X_1,X_2,\cdots,X_n$를 크기 순(작은 것부터)으로 나열한 것을 순서통계량(Order Statistic; 顺序统计量)이라고 하며, 다음과 같이 나타낸다. $$ X_{(1)},X_{(2)},\cdots,X_{(n)} $$ 순서통계량은 여러개의 통계량을 나열한 수열이다. $X_{(k)}(k=1,\cdots n)$을 $k$번째 순서통계량이라고 한다. 순서통계량의 정의에 의해 $k$번째 순서통계량은 표본에서 $k$번째로 작은 개체다. 표본의 크기가 $n$일 때, 특히 중요한 1번째로 작은 개체(제일 작은 개체)인 최소값과 $n$번째로 작은 ..
감마함수 수리통계학을 공부하는데 감마함수가 자주 등장하므로 따로 정리해둔다. 베타분포에도 나오고, 카이제곱분포에도 나온다. #1. 정의와 의의 감마함수(Gamma Function; 伽马函数)는 다음과 같이 정의되는 함수다. $$ \Gamma(z):=\int_{0}^{\infty}t^{z-1}e^{-t}\space dt $$ 이렇게 정의하는 의미는 뭘까? 우변의 적분을 계산해보자. 부분적분법을 이용해서 차수를 줄여나가다 보면, 규칙이 보인다. $\Gamma(z):=\int_{0}^{\infty}t^{z-1}e^{-t}\space dt=(z-1)!$이다. $(z-1)!$에서 $(z-1)$은 원래 음이 아닌 정수로 정하는데, 적분식 $\int_{0}^{\infty}t^{z-1}e^{-t}\space dt$에서 $(z-..
표본추출분포 요약: #1. 표본추출분포 모집단 $X$로부터 단순무작위추출 방법으로 추출한 표본 $X_1,X_2,\cdots,X_n$은 확률변수 수열이며, 표본의 각 개체 $X_i$는 확률변수다. 통계량은 $X_i$의 함수다. 예를 들어 표본평균 $\overline{X}=\frac{1}{n}\sum_{i=1}^{n}X_i$는 $X_i$의 함수다. 따라서 통계량 역시 확률변수다. 통계량이 확률변수이므로, 이에 대응되는 확률분포가 있다. 통계량의 확률분포를 표본추출분포(Sampling Distribution; 抽样分布)라고 한다. note: 표본추출분포를 줄여서 표본분포라고도 하는데, ‘표본의 분포’와는 다른 개념이고 헷갈리니까 줄일거면 차라리 ‘추출분포’라고 하는 편이 좋겠다. #2. 표본추출분포 2가지 이번 글에서는 ..
통계학 기본 용어 정리 요약: #1. 통계적 추론: 모집단 vs 표본 관심있는 연구대상의 전체를 모집단(Population; 总体)이라고 한다. 모집단은 여러개의 개체를 포함하고 있다. 이 개체의 수를 모집단의 크기(Size; 大小)라고 하며, $N$으로 나타낸다. 하나의 모집단은 특정한 하나의 확률변수 $X$에 대응된다. 예를 들어 공장의 불량률이 $p$인 생산라인에서 생산된 물품이 불량인 사건을 $\lbrace X=1\rbrace$, 불량이 아닌 사건을 $\lbrace X=0\rbrace$으로 둘 수 있고, 이때 모집단 $X$가 베르누이 분포를 따른다고 표현한다. 모집단의 크기는 일반적으로 매우 커서, 그것을 모두 관찰하기는 거의 불가능하다. 그래서 모집단에서 일부를 뽑아 관찰하는 것으로 만족하며, 이것을 표본(Sample..