본문 바로가기

확률론과 수리통계

통계학 기본 용어 정리

요약:

#1. 통계적 추론: 모집단 vs 표본

관심있는 연구대상의 전체를 모집단(Population; 总体)이라고 한다. 모집단은 여러개의 개체를 포함하고 있다. 이 개체의 수를 모집단의 크기(Size; 大小)라고 하며, $N$으로 나타낸다.

하나의 모집단은 특정한 하나의 확률변수 $X$에 대응된다. 예를 들어 공장의 불량률이 $p$인 생산라인에서 생산된 물품이 불량인 사건을 $\lbrace X=1\rbrace$, 불량이 아닌 사건을 $\lbrace X=0\rbrace$으로 둘 수 있고, 이때 모집단 $X$가 베르누이 분포를 따른다고 표현한다.

모집단의 크기는 일반적으로 매우 커서, 그것을 모두 관찰하기는 거의 불가능하다. 그래서 모집단에서 일부를 뽑아 관찰하는 것으로 만족하며, 이것을 표본(Sample; 样本)이라고 한다.

하나의 표본은 여러개의 확률변수 $X_1,X_2,\cdots,X_n$을 나열한 수열이다. 각 $X_i$는 $i$번째 관찰결과이다. 그리고 수열의 길이 $n$은 표본의 크기라고 한다. 예를 들어 다음과 같은 표본은 크기가 10이며, 3번째 관찰 결과는 0이다.

$$ 1,0,0,1,0,1,1,1,0,0 $$

어떤 공장의 생산라인의 생산현황이 궁금하다고 해서 모든 물품을 전부 관찰(전수조사)할 수는 없다. 하지만 생산품 중 일부를 뽑아서 관찰해보고, 이를 토대로 전체 생산품의 현황을 추론할 수 있다. 이렇게 표본의 특성을 토대로 모집단의 특성을 추론하는 것을 통계적 추론(Statistical Inference; 统计推断)이라고 한다.

#2. 표본추출: 단순무작위추출

표본을 뽑는 것을 표본추출(Sampling; 抽样)이라고 한다. 표본을 뽑는 것은 통계학에서 매우 중요한 행위이므로 따로 이름까지 붙어있다. 여러가지 표본추출 방법이 있지만, 수리통계학에서는 매끄러운 이론전개를 위해 단순무작위추출(Simple Random Sampling; 简单随机抽样)을 가정한다. 단순무작위추출 방법으로 추출한 표본을 단순무작위표본(Simple Random Sample, SRS; 简单随机样本)이라고 한다.

그 결과 모든 $X_i$는 서로 독립이며, 같은 모집단에서 나왔으므로 모집단과 같은 분포를 따른다. 단순무작위표본은 결국 수리통계학에서 중요한 조건인 독립항등분포(Independent and Identically distributed, i.i.d., IID; 独立同分布)를 만족시키기 위함이라는 것을 알 수 있다.

모집단의 크기가 유한하다면, 복원추출을 통해서 단순무작위표본을 얻을 수 있다. 하지만 일반적으로 모집단의 크기는 표본에 비해서 매우 크기 때문에, 비복원추출을 하고 복원추출을 했다고 생각해도 된다. 모집단의 크기가 무한하다면, 복원추출이든 비복원추출이든 분포에 영향을 미치지 않으므로 이 문제를 신경쓰지 않는다.

#3. 모수 vs 통계량

모집단이 확률변수에 대응하므로, 모집단의 특성은 확률분포의 모수(Parameter; 参数)로 나타내면 된다. 예를 들어 이항분포 $\mathrm{Bin}(n,p)$를 따르는 모집단의 모수는 $n$, $p$이다.

그런데, $n$, $p$ 외에도, 평균(기댓값), 분산, 왜도, 첨도, 중앙값, 최빈값, 그리고 각종 적률 등 모집단의 특성을 나타내는 수치들이 있다. 이것들도 모집단의 모수이다. 하지만 이 수치들은 결국 $n$과 $p$로 계산할 수 있다. 따라서 지금까지 써왔던 ‘확률분포의 모수’와 이번 글의 ‘모집단의 모수’는 사실상 다른 개념이지만, 같은 것으로 취급한다.

모수 중에서 특히 자주 다뤄지는 모집단의 평균과 분산을 각각 모평균, 모분산이라고 하며, 기호로는 $\mu$, $\sigma^2$으로 나타낸다.

$$ \begin{split} &\mu:=\mathbb{E}[X] \\ &\sigma^2:=\mathrm{Var}[X] \end{split} $$

모수와 상대적인 개념으로 표본의 특성을 나타내는 수치인 통계량(Statistics; 统计量)이 있다. 자주 쓰이는 통계량으로 표본평균 $\overline{X}$, 표본분산 $S^2$ 등이 있고, 다음과 같이 정의한다.

$$ \begin{split} &\overline{X}:=\frac{1}{n}\sum_{i=1}^nX_i \\ &S^2:=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2 \end{split} $$

표본평균은 표본의 산술평균으로 정의한다. 표본의 각 개체 $X_i$ 사이에 가중치가 없다고, 평등하다고 생각하기 때문이다. 표본분산에서 $n$대신 $(n-1)$을 나눈 것은 표본분산을 불편추정량으로 만들기 위함이다. (추후 작성 예정.)

표본평균과 표본분산 외에도, 표본적률 역시 통계량이며, 표본의 합 $\sum_{i=1}^{n}X_i$같은 것도 통계량이다. 표본의 개체의 함수는 모두 통계량이다.

'확률론과 수리통계' 카테고리의 다른 글

감마함수  (0) 2023.02.05
표본추출분포  (0) 2023.02.05
이항정리  (0) 2023.02.02
누율생성함수, 누율  (2) 2023.01.30
물리량과 적률의 비교  (0) 2023.01.29