본문 바로가기

전체 글

(87)
카이제곱분포 #1. 정의 모집단 $X\sim\mathrm{N}(0,1)$에서 크기가 $n$인 단순무작위표본 $X_1, X_2,\cdots,X_n$을 추출했다고 가정하자. 이때 통계량 $\chi^2:=X_1^2+X_2^2+\cdots+X_n^2$의 분포를 자유도가 $n$인 카이제곱분포(Chi-squared Distribution; 卡方分布)이라고 하며, 기호로는 $\chi^2(n)$으로 나타낸다. 카이제곱분포의 정의에 의해, $\chi^2\sim\chi^2(n)$이다. 한편, 지난 글에서 표준정규분포를 따르는 확률변수의 제곱합은 $\Gamma(n/2,1/2)$를 따르는 것을 유도했다. (표본추출분포 참조.) 따라서 카이제곱분포의 확률밀도함수는 다음과 같이 주어진다. $$ f_{\chi^2}(k)= \begin{case..
z분포 요약: #1. 정의 임의의 모집단 $X$에서 크기가 $n$인 단순무작위표본 $X_1, X_2,\cdots, X_n$을 추출했다고 가정하자. 중심극한정리에 의해 통계량 $Z:=\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}$는 표준정규분포 $\mathrm{N}(0,1)$에 분포수렴한다. 따라서 $n$이 충분히 클 때 $Z\sim\mathrm{N}(0,1)$이라고 표현할 수 있으며, 이 이유로 표준정규분포를 z분포라고도 한다. z분포의 확률밀도함수는 곧 표준정규분포의 확률밀도함수다. $$ f_Z(z)=\frac{1}{\sqrt{2\pi}}e^{-\frac{z^2}{2}} $$ #2. 모집단의 분포는 상관없다. ‘임의의 모집단’이라는 것이 중요하다. 모집단의 분포와 상관없이 IID인 ..
분위수 분위수는 모수추정, 가설검정 등 각종 통계기법에 등장하므로 반드시 정리해두어야 한다. 당장 오늘 본 논문도 구간추정을 하는데 이 개념을 자연스럽게 쓰고 있었다. #1. 정의 어떤 모집단의 확률분포 $F$(또는 확률변수 $X$)의 제$(1-\alpha)$ 분위수(Quantile; 分位数) $F_{\alpha}$는 다음 등식을 만족하는 모수다. $$ F(F_{\alpha})=P(X\le F_{\alpha})=\int_{-\infty}^{F_{\alpha}}f(x)\space dx=1-\alpha $$ 분위수를 누적분포함수의 역함수로 나타내기도 한다. $$ F_\alpha:=F^{-1}(1-\alpha) $$ 분위수는 수식보다 그림으로 접근하는 편이 이해가 쉽다. 쉽게 말해 어떤 데이터를 크기 순으로 나열했더..
경험적 분포함수 #1. 정의 모집단 $X$로부터 표본 $X_1,\cdots,X_n$을 추출했다고 하자. 이때, 다음과 같이 경험적 분포함수(Empirical Distribution Function, EDF; 经验分布函数) $F_n(x)$를 얻을 수 있다. $$ F_n(x):=\frac{\sum_{i=1}^{n}\mathbf{1}(X_i\le x)}{n}=\begin{cases}0,&x
순서통계량과 베타분포 모집단이 단위구간 위의 균등분포 $\mathrm{U}[0,1]$일 때, $k$번째 순서통계량 $X_{(k)}$의 확률밀도는 $$ \begin{split} f_{(k)}(x)&=\frac{n!}{(k-1)!(n-k)!}x^{k-1}(1-x)^{n-k}\mathbf{1}_{[0,1]}(x) \end{split} $$ 이 되는데, 다름 아닌 베타분포 $\mathrm{Beta}(k,n-k+1)$의 확률밀도다. 지난 글에서 베타분포를 유도할 때는 독립시행의 성공확률로 PDF를 나타냈고, 실수구간 전체에서 적분값이 1임을 이용하여 정규화 상수를 구해냈다. 이번에는 순서통계량의 관점으로 접근해본 것이다. $f_{(k)}(x)$를 베타분포의 확률밀도로 생각한다면, 총 $(n-1)$회의 베르누이 독립시행 중 성공횟수는 ..
순서통계량 순서통계량과 그 분포는 데이터의 순위를 중시하는 비모수검정, 질적 데이터 분석분야에 자주 쓰이므로 정리해둔다. #1. 순서통계량 모집단 $X$에서 추출한 표본 $X_1,X_2,\cdots,X_n$를 크기 순(작은 것부터)으로 나열한 것을 순서통계량(Order Statistic; 顺序统计量)이라고 하며, 다음과 같이 나타낸다. $$ X_{(1)},X_{(2)},\cdots,X_{(n)} $$ 순서통계량은 여러개의 통계량을 나열한 수열이다. $X_{(k)}(k=1,\cdots n)$을 $k$번째 순서통계량이라고 한다. 순서통계량의 정의에 의해 $k$번째 순서통계량은 표본에서 $k$번째로 작은 개체다. 표본의 크기가 $n$일 때, 특히 중요한 1번째로 작은 개체(제일 작은 개체)인 최소값과 $n$번째로 작은 ..
감마함수 수리통계학을 공부하는데 감마함수가 자주 등장하므로 따로 정리해둔다. 베타분포에도 나오고, 카이제곱분포에도 나온다. #1. 정의와 의의 감마함수(Gamma Function; 伽马函数)는 다음과 같이 정의되는 함수다. $$ \Gamma(z):=\int_{0}^{\infty}t^{z-1}e^{-t}\space dt $$ 이렇게 정의하는 의미는 뭘까? 우변의 적분을 계산해보자. 부분적분법을 이용해서 차수를 줄여나가다 보면, 규칙이 보인다. $\Gamma(z):=\int_{0}^{\infty}t^{z-1}e^{-t}\space dt=(z-1)!$이다. $(z-1)!$에서 $(z-1)$은 원래 음이 아닌 정수로 정하는데, 적분식 $\int_{0}^{\infty}t^{z-1}e^{-t}\space dt$에서 $(z-..
표본추출분포 요약: #1. 표본추출분포 모집단 $X$로부터 단순무작위추출 방법으로 추출한 표본 $X_1,X_2,\cdots,X_n$은 확률변수 수열이며, 표본의 각 개체 $X_i$는 확률변수다. 통계량은 $X_i$의 함수다. 예를 들어 표본평균 $\overline{X}=\frac{1}{n}\sum_{i=1}^{n}X_i$는 $X_i$의 함수다. 따라서 통계량 역시 확률변수다. 통계량이 확률변수이므로, 이에 대응되는 확률분포가 있다. 통계량의 확률분포를 표본추출분포(Sampling Distribution; 抽样分布)라고 한다. note: 표본추출분포를 줄여서 표본분포라고도 하는데, ‘표본의 분포’와는 다른 개념이고 헷갈리니까 줄일거면 차라리 ‘추출분포’라고 하는 편이 좋겠다. #2. 표본추출분포 2가지 이번 글에서는 ..