Mathematics (98) 썸네일형 리스트형 z분포 요약: #1. 정의 임의의 모집단 $X$에서 크기가 $n$인 단순무작위표본 $X_1, X_2,\cdots, X_n$을 추출했다고 가정하자. 중심극한정리에 의해 통계량 $Z:=\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}$는 표준정규분포 $\mathrm{N}(0,1)$에 분포수렴한다. 따라서 $n$이 충분히 클 때 $Z\sim\mathrm{N}(0,1)$이라고 표현할 수 있으며, 이 이유로 표준정규분포를 z분포라고도 한다. z분포의 확률밀도함수는 곧 표준정규분포의 확률밀도함수다. $$ f_Z(z)=\frac{1}{\sqrt{2\pi}}e^{-\frac{z^2}{2}} $$ #2. 모집단의 분포는 상관없다. ‘임의의 모집단’이라는 것이 중요하다. 모집단의 분포와 상관없이 IID인 .. 분위수 분위수는 모수추정, 가설검정 등 각종 통계기법에 등장하므로 반드시 정리해두어야 한다. 당장 오늘 본 논문도 구간추정을 하는데 이 개념을 자연스럽게 쓰고 있었다. #1. 정의 어떤 모집단의 확률분포 $F$(또는 확률변수 $X$)의 제$(1-\alpha)$ 분위수(Quantile; 分位数) $F_{\alpha}$는 다음 등식을 만족하는 모수다. $$ F(F_{\alpha})=P(X\le F_{\alpha})=\int_{-\infty}^{F_{\alpha}}f(x)\space dx=1-\alpha $$ 분위수를 누적분포함수의 역함수로 나타내기도 한다. $$ F_\alpha:=F^{-1}(1-\alpha) $$ 분위수는 수식보다 그림으로 접근하는 편이 이해가 쉽다. 쉽게 말해 어떤 데이터를 크기 순으로 나열했더.. 경험적 분포함수 #1. 정의 모집단 $X$로부터 표본 $X_1,\cdots,X_n$을 추출했다고 하자. 이때, 다음과 같이 경험적 분포함수(Empirical Distribution Function, EDF; 经验分布函数) $F_n(x)$를 얻을 수 있다. $$ F_n(x):=\frac{\sum_{i=1}^{n}\mathbf{1}(X_i\le x)}{n}=\begin{cases}0,&x 순서통계량과 베타분포 모집단이 단위구간 위의 균등분포 $\mathrm{U}[0,1]$일 때, $k$번째 순서통계량 $X_{(k)}$의 확률밀도는 $$ \begin{split} f_{(k)}(x)&=\frac{n!}{(k-1)!(n-k)!}x^{k-1}(1-x)^{n-k}\mathbf{1}_{[0,1]}(x) \end{split} $$ 이 되는데, 다름 아닌 베타분포 $\mathrm{Beta}(k,n-k+1)$의 확률밀도다. 지난 글에서 베타분포를 유도할 때는 독립시행의 성공확률로 PDF를 나타냈고, 실수구간 전체에서 적분값이 1임을 이용하여 정규화 상수를 구해냈다. 이번에는 순서통계량의 관점으로 접근해본 것이다. $f_{(k)}(x)$를 베타분포의 확률밀도로 생각한다면, 총 $(n-1)$회의 베르누이 독립시행 중 성공횟수는 .. 순서통계량 순서통계량과 그 분포는 데이터의 순위를 중시하는 비모수검정, 질적 데이터 분석분야에 자주 쓰이므로 정리해둔다. #1. 순서통계량 모집단 $X$에서 추출한 표본 $X_1,X_2,\cdots,X_n$를 크기 순(작은 것부터)으로 나열한 것을 순서통계량(Order Statistic; 顺序统计量)이라고 하며, 다음과 같이 나타낸다. $$ X_{(1)},X_{(2)},\cdots,X_{(n)} $$ 순서통계량은 여러개의 통계량을 나열한 수열이다. $X_{(k)}(k=1,\cdots n)$을 $k$번째 순서통계량이라고 한다. 순서통계량의 정의에 의해 $k$번째 순서통계량은 표본에서 $k$번째로 작은 개체다. 표본의 크기가 $n$일 때, 특히 중요한 1번째로 작은 개체(제일 작은 개체)인 최소값과 $n$번째로 작은 .. 감마함수 수리통계학을 공부하는데 감마함수가 자주 등장하므로 따로 정리해둔다. 베타분포에도 나오고, 카이제곱분포에도 나온다. #1. 정의와 의의 감마함수(Gamma Function; 伽马函数)는 다음과 같이 정의되는 함수다. $$ \Gamma(z):=\int_{0}^{\infty}t^{z-1}e^{-t}\space dt $$ 이렇게 정의하는 의미는 뭘까? 우변의 적분을 계산해보자. 부분적분법을 이용해서 차수를 줄여나가다 보면, 규칙이 보인다. $\Gamma(z):=\int_{0}^{\infty}t^{z-1}e^{-t}\space dt=(z-1)!$이다. $(z-1)!$에서 $(z-1)$은 원래 음이 아닌 정수로 정하는데, 적분식 $\int_{0}^{\infty}t^{z-1}e^{-t}\space dt$에서 $(z-.. 표본추출분포 요약: #1. 표본추출분포 모집단 $X$로부터 단순무작위추출 방법으로 추출한 표본 $X_1,X_2,\cdots,X_n$은 확률변수 수열이며, 표본의 각 개체 $X_i$는 확률변수다. 통계량은 $X_i$의 함수다. 예를 들어 표본평균 $\overline{X}=\frac{1}{n}\sum_{i=1}^{n}X_i$는 $X_i$의 함수다. 따라서 통계량 역시 확률변수다. 통계량이 확률변수이므로, 이에 대응되는 확률분포가 있다. 통계량의 확률분포를 표본추출분포(Sampling Distribution; 抽样分布)라고 한다. note: 표본추출분포를 줄여서 표본분포라고도 하는데, ‘표본의 분포’와는 다른 개념이고 헷갈리니까 줄일거면 차라리 ‘추출분포’라고 하는 편이 좋겠다. #2. 표본추출분포 2가지 이번 글에서는 .. 통계학 기본 용어 정리 요약: #1. 통계적 추론: 모집단 vs 표본 관심있는 연구대상의 전체를 모집단(Population; 总体)이라고 한다. 모집단은 여러개의 개체를 포함하고 있다. 이 개체의 수를 모집단의 크기(Size; 大小)라고 하며, $N$으로 나타낸다. 하나의 모집단은 특정한 하나의 확률변수 $X$에 대응된다. 예를 들어 공장의 불량률이 $p$인 생산라인에서 생산된 물품이 불량인 사건을 $\lbrace X=1\rbrace$, 불량이 아닌 사건을 $\lbrace X=0\rbrace$으로 둘 수 있고, 이때 모집단 $X$가 베르누이 분포를 따른다고 표현한다. 모집단의 크기는 일반적으로 매우 커서, 그것을 모두 관찰하기는 거의 불가능하다. 그래서 모집단에서 일부를 뽑아 관찰하는 것으로 만족하며, 이것을 표본(Sample.. 이항정리 이항정리는 다항식의 거듭제곱을 전개할 때 반드시 사용되므로 따로 정리해둔다. 이항정리는 이항식의 전개를 다루지만, 3개의 항으로 이루어진 식도 이항정리를 여러번 적용해서 얼마든지 전개할 수 있다. 또는 완벽히 전개하지 않고 특정항의 계수만 쏙쏙 빼먹을 수 있다. 바로 이 방법으로 확률변수의 고차 적률과 누율을 다뤘다. #1. 정의 이항정리(Binomial Theorem; 二项式定理)는 다음과 같이 이항식의 거듭제곱을 전개하는 방법이다. $$ \begin{split} (x+y)^n&=x^ny^0{n\choose n}+x^{n-1}y^1{n\choose n-1}+x^{n-2}y^2{n\choose n-2}+\cdots+x^0y^n{n\choose 0} \\ &=(x^ny^0,x^{n-1}y^1,x^{n-2}.. 누율생성함수, 누율 누율생성함수와 누율은 수리통계학에서 비교적 마이너한 주제이지만, 그래도 어떤 문제에 부딪혔을때 그것을 우회적으로 해결하는 방법론을 제시하기 때문에 정리해둔다. 로그를 씌워 계산을 편리하게 만드는 것, 그리고 복잡한 다항식을 다루는 것 모두 큰 공부가 되었다. note: 제목이 ‘누율, 누율생성함수’가 아닌 이유=누율생성함수를 먼저 정의하고 그 다음 누율을 정의한다는 사실을 기억하기 위함. #1. MGF의 또 다른 문제점 지난 글에서 소개한 적률과 적률생성함수는 존재성 외에도 또 하나 문제점이 있는데, 바로 ‘미분친화적이지 않다’는 것이다. 예를 들어 모든 정규분포의 왜도와 첨도가 항상 0과 3임을 보이기 위해서 먼저 다음과 같이 적률생성함수를 계산하고, 그리고 이렇게 구한 적률생성함수를 3, 4번 미분하.. 물리량과 적률의 비교 아래에서 소개할 특정 물리량과 적률을 구하는 식이 같은 것은 단순 우연의 일치이고, 큰 의미는 없어 보인다. 다만 물리학의 물리량과 통계학의 적률을 비교하여 기억하면 재미있을 뿐만 아니라 적률의 개념을 이해하는 데도 도움이 될 것 같아서 정리해둔다. 지난 글 ‘확률밀도와 확률질량의 이해’를 참고하면, 더 깊은 이해가 가능할 것이다. #1. 총질량=0차 원적률(상수 1) 0차 원적률은 항상 확률의 총합으로, 상수 1이다. 확률공간에서 표본공간 $\Omega$의 확률측도를 1로 정했으므로 (콜모고로프 공리) 모든 종류의 확률변수에 대해 다음이 성립하기 때문이다. $$ \mathbb E[X^0]=\sum_{x}P(X=x)=\int_{-\infty}^{\infty}f_X(x)\space dx\equiv1 $$ .. 왜도, 첨도 확률변수의 수학적인 중심인 기댓값과 관찰값이 흩어진 정도를 나타내는 분산은 각각 1차 원적률과 2차 중심적률로, 분포를 이해하는 데 매우 중요한 정보이지만, 이것만으로는 부족한 감이 있다. 따라서 분포의 비대칭도를 나타내는 왜도와 꼬리의 두께를 나타내는 첨도를 함께 고려하는 경우가 많다. 상관계수처럼 단위의 문제를 없애기 위해, 표준화적률로 정의한다. 기댓값과 분산에 더해 왜도와 첨도를 고려하면, 자연스럽게 적률이 아니지만 분포를 묘사하는 데 중요한 역할을 하는 중앙값, 최빈값, 극단값을 고려하게 된다. 따라서 더욱 정확하게 분포를 묘사할 수 있다. #1. 왜도 분포의 비대칭도는 왜도(Skewness; 偏度)로 나타낸다. 왜도는 3차 표준화적률이다. $$ \mathrm{Skew}(X):={\mu}^{\a.. 이전 1 2 3 4 5 6 7 ··· 9 다음 목록 더보기