본문 바로가기

전체 글

(87)
통계학 기본 용어 정리 요약: #1. 통계적 추론: 모집단 vs 표본 관심있는 연구대상의 전체를 모집단(Population; 总体)이라고 한다. 모집단은 여러개의 개체를 포함하고 있다. 이 개체의 수를 모집단의 크기(Size; 大小)라고 하며, $N$으로 나타낸다. 하나의 모집단은 특정한 하나의 확률변수 $X$에 대응된다. 예를 들어 공장의 불량률이 $p$인 생산라인에서 생산된 물품이 불량인 사건을 $\lbrace X=1\rbrace$, 불량이 아닌 사건을 $\lbrace X=0\rbrace$으로 둘 수 있고, 이때 모집단 $X$가 베르누이 분포를 따른다고 표현한다. 모집단의 크기는 일반적으로 매우 커서, 그것을 모두 관찰하기는 거의 불가능하다. 그래서 모집단에서 일부를 뽑아 관찰하는 것으로 만족하며, 이것을 표본(Sample..
이항정리 이항정리는 다항식의 거듭제곱을 전개할 때 반드시 사용되므로 따로 정리해둔다. 이항정리는 이항식의 전개를 다루지만, 3개의 항으로 이루어진 식도 이항정리를 여러번 적용해서 얼마든지 전개할 수 있다. 또는 완벽히 전개하지 않고 특정항의 계수만 쏙쏙 빼먹을 수 있다. 바로 이 방법으로 확률변수의 고차 적률과 누율을 다뤘다. #1. 정의 이항정리(Binomial Theorem; 二项式定理)는 다음과 같이 이항식의 거듭제곱을 전개하는 방법이다. $$ \begin{split} (x+y)^n&=x^ny^0{n\choose n}+x^{n-1}y^1{n\choose n-1}+x^{n-2}y^2{n\choose n-2}+\cdots+x^0y^n{n\choose 0} \\ &=(x^ny^0,x^{n-1}y^1,x^{n-2}..
누율생성함수, 누율 누율생성함수와 누율은 수리통계학에서 비교적 마이너한 주제이지만, 그래도 어떤 문제에 부딪혔을때 그것을 우회적으로 해결하는 방법론을 제시하기 때문에 정리해둔다. 로그를 씌워 계산을 편리하게 만드는 것, 그리고 복잡한 다항식을 다루는 것 모두 큰 공부가 되었다. note: 제목이 ‘누율, 누율생성함수’가 아닌 이유=누율생성함수를 먼저 정의하고 그 다음 누율을 정의한다는 사실을 기억하기 위함. #1. MGF의 또 다른 문제점 지난 글에서 소개한 적률과 적률생성함수는 존재성 외에도 또 하나 문제점이 있는데, 바로 ‘미분친화적이지 않다’는 것이다. 예를 들어 모든 정규분포의 왜도와 첨도가 항상 0과 3임을 보이기 위해서 먼저 다음과 같이 적률생성함수를 계산하고, 그리고 이렇게 구한 적률생성함수를 3, 4번 미분하..
물리량과 적률의 비교 아래에서 소개할 특정 물리량과 적률을 구하는 식이 같은 것은 단순 우연의 일치이고, 큰 의미는 없어 보인다. 다만 물리학의 물리량과 통계학의 적률을 비교하여 기억하면 재미있을 뿐만 아니라 적률의 개념을 이해하는 데도 도움이 될 것 같아서 정리해둔다. 지난 글 ‘확률밀도와 확률질량의 이해’를 참고하면, 더 깊은 이해가 가능할 것이다. #1. 총질량=0차 원적률(상수 1) 0차 원적률은 항상 확률의 총합으로, 상수 1이다. 확률공간에서 표본공간 $\Omega$의 확률측도를 1로 정했으므로 (콜모고로프 공리) 모든 종류의 확률변수에 대해 다음이 성립하기 때문이다. $$ \mathbb E[X^0]=\sum_{x}P(X=x)=\int_{-\infty}^{\infty}f_X(x)\space dx\equiv1 $$ ..
왜도, 첨도 확률변수의 수학적인 중심인 기댓값과 관찰값이 흩어진 정도를 나타내는 분산은 각각 1차 원적률과 2차 중심적률로, 분포를 이해하는 데 매우 중요한 정보이지만, 이것만으로는 부족한 감이 있다. 따라서 분포의 비대칭도를 나타내는 왜도와 꼬리의 두께를 나타내는 첨도를 함께 고려하는 경우가 많다. 상관계수처럼 단위의 문제를 없애기 위해, 표준화적률로 정의한다. 기댓값과 분산에 더해 왜도와 첨도를 고려하면, 자연스럽게 적률이 아니지만 분포를 묘사하는 데 중요한 역할을 하는 중앙값, 최빈값, 극단값을 고려하게 된다. 따라서 더욱 정확하게 분포를 묘사할 수 있다. #1. 왜도 분포의 비대칭도는 왜도(Skewness; 偏度)로 나타낸다. 왜도는 3차 표준화적률이다. $$ \mathrm{Skew}(X):={\mu}^{\a..
적률, 적률생성함수 글 내용을 요약하는 그림: #1. 적률 #1-1. 정의 확률변수 $X$의 $n$차 적률($n$-th Moment; $n$阶矩)을 다음과 같이 정의한다. 아래의 중심적률과 비교해서 $n$차 원적률($n$-th Raw Moment; $n$阶原点矩)이라고도 한다. $$ \mu_n:=\mathbb{E}[X^n]=\int_{-\infty}^{\infty}x^n\space dF_X(x)(n=1,2,\cdots) $$ 확률변수 $X$의 $n$차 중심적률($n$-th Central Moment; $n$阶中心矩)을 다음과 같이 정의한다. 여기서 $\mu:=\mu_1=\mathbb E[X]$이다. 기댓값은 자주 쓰이는 적률이므로 특별히 첨자를 생략한다. $$ \bar\mu_n:=\mathbb{E}[(X-\mu)^n]=\i..
라플라스 근사 스털링 근사를 유도하기 위해 라플라스 근사가 쓰였다. 라플라스 근사(Laplace’s Approximation; 拉普拉斯近似)란, 다음과 같이 정적분의 근사치를 구하는 방법이다. 함수 $f$가 $x_0$에서 최댓값(엄밀히 말해 ‘상한’, note 참조.)을 가질 때, 즉 $f^{\prime}(x_0)=0$이고 $f^{\prime\prime}(x_0)
스털링 근사 드 무아브르-라플라스의 정리를 유도하는 데 스털링 근사가 쓰였다. 다음과 같이 계승(Factorial; 阶乘)의 근사치를 구하는 방법을 스털링 근사(Stirling’s Approximation; 斯特林近似)라고 한다. $$ n!\approx\sqrt{2\pi n}\left(\frac{n}{e}\right)^n $$ 스털링 근사는 라플라스 근사와 (해당 글 참조.) 감마함수를 이용하여 유도할 수 있다. $$ \begin{split} &n!=\Gamma(n+1)=\int_{0}^{\infty}t^{n}e^{-t}\space dt=\int_{0}^{\infty}e^{n(\ln t-\frac{t}{n})}\space dt \\ &\approx e^{n(\ln n-1)}\sqrt{\frac{2\pi}{n\vert..