본문 바로가기

확률론과 수리통계

순서통계량과 베타분포

모집단이 단위구간 위의 균등분포 $\mathrm{U}[0,1]$일 때, $k$번째 순서통계량 $X_{(k)}$의 확률밀도는

$$ \begin{split} f_{(k)}(x)&=\frac{n!}{(k-1)!(n-k)!}x^{k-1}(1-x)^{n-k}\mathbf{1}_{[0,1]}(x) \end{split} $$

이 되는데, 다름 아닌 베타분포 $\mathrm{Beta}(k,n-k+1)$의 확률밀도다. 지난 글에서 베타분포를 유도할 때는 독립시행의 성공확률로 PDF를 나타냈고, 실수구간 전체에서 적분값이 1임을 이용하여 정규화 상수를 구해냈다. 이번에는 순서통계량의 관점으로 접근해본 것이다.

$f_{(k)}(x)$를 베타분포의 확률밀도로 생각한다면, 총 $(n-1)$회의 베르누이 독립시행 중 성공횟수는 $(k-1)$회, 실패횟수는 $(n-k)$회가 된다.

여기서 독립시행횟수, 성공횟수, 실패횟수는 각각 어떤 의미가 있을까? 우선 크기 $n$인 표본을 추출하여, 임의의 순서통계량 $X_{(k)}$를 정해보자. 그러면 이를 제외한 나머지 개체의 수는 $(n-1)$개가 된다. 이제 표본의 $n$개의 개체를 크기순으로 나열하려고 한다. 이때, 미리 정해둔 $X_{(k)}$를 기준으로 삼으면, 이보다 작은 것은 총 $(k-1)$개 있고, 보다 큰 것은 $(n-k)$개가 있다.

즉, $(n-1)$회의 독립시행은 $X_{(k)}$와 나머지 $(n-1)$개의 개체의 크기를 비교하는 것이고, 성공횟수가 $(k-1)$회인 것은 $X_{(k)}$보다 작은 것이 $(k-1)$개 있음을 의미한다. 당연히 보다 큰 것은 $(n-k)$개 있게 되며, 이것은 실패를 의미한다.

실제로 베타분포 $\mathrm{Beta}(k,n-k+1)$의 PDF를 유도할 때, 정규화상수 $1/\int_{0}^{1}x^{k-1}(1-x)^{n-k}\space dx$를 계산해야 하는데, 지난 글에서는 부분적분과 감마함수를 이용했지만, 다음과 같은 사고실험-베이즈의 당구공(Bayes’ Billiards)-을 통한 접근법도 매우 훌륭하다.

note: Harvard University Lecture 23: Beta distribution | Statistics 110: https://www.youtube.com/watch?v=UZjlBQbV1KU


(1) 크기, 무게 등 조건이 같은 당구공이 상자에 총 $n$개 들어있으며, 그 중 1개는 빨간색이고 나머지는 모두 흰색이다. 이 모든 당구공들을 무작위로 꺼내서 일직선을 이루도록 나열했을 때, 빨간색 당구공의 왼쪽에 위치하는 흰색 당구공의 개수를 확률변수 $X$로 놓자.

(2) 흰색 당구공이 빨간색 당구공의 왼쪽에 위치할 확률을 $p$로 두면, $p\sim\mathrm{U}[0,1]$이다. 확률은 0부터 1까지의 값을 가지며, 여기서는 확률이 어떤 특정값이라고 편견을 가질 이유가 없기 때문에 균등하게 값을 가진다고 생각하는 것이다. $p$의 확률밀도는 다음과 같다.

$$ f(p)=\mathbf{1}(0\le p\le1) $$

(3) 왼쪽에 위치할 확률이 $p$라는 조건 하에 $X=k-1$일 확률은 다음과 같이 이항분포로 나타낸다. 빨간색 공을 제외한 나머지 $(n-1)$개의 공에서 왼쪽에 위치하는 공을 총 $(k-1)$개 뽑는 것이기 때문이다.

$$ P(X=k-1\mid p)={n-1\choose k-1}p^{k-1}(1-p)^{n-k} $$

(4) $p$는 0도 될 수 있고, 0.5도 될 수 있고, 0.5671234도 될 수 있다. 다시 말해 $p$는 0부터 1사이의 값을 무작위로 가지며, 이 각각의 경우에 대해 $X=k-1$일 확률을 모두 계산하고 합쳐야 진정한 $P(X=k-1)$이 될 수 있다. 즉, 빨간공 왼쪽에 $(k-1)$개의 흰색 공이 있을 확률을 다음과 같이 전체확률의 법칙에 의해 계산한다.

$$ \begin{split} P(X=k-1)&=\int_{0}^{1}P(X=k-1\mid p)f(p)\space dp \\ &=\int_{0}^{1}{n-1\choose k-1}p^{k-1}(1-p)^{n-k}\mathbf{1}(0\le p\le1)\space dp \\ &={n-1\choose k-1}\int_{0}^{1}p^{k-1}(1-p)^{n-k}\space dp \end{split} $$

(5) 사실 흰색 당구공 $n$개를 일렬로 늘어놓고, 그 중 하나를 무작위로 빨간색으로 칠하는 것이나, $(n-1)$개의 흰색 당구공과 1개의 빨간색 당구공을 일렬로 늘어놓는 것이나 같은 행위다. 어떤 공이 빨간색으로 칠해질 확률은 $1/n$이다. 따라서 $P(X=k-1)=1/n$이고, 이를 이용하여 $1/\int_{0}^{1}p^{k-1}(1-p)^{n-k}\space dp$를 계산할 수 있다.

$$ \begin{split} {n-1\choose k-1}\int_{0}^{1}p^{k-1}(1-p)^{n-k}\space dp&=\frac{1}{n} \\ \int_{0}^{1}p^{k-1}(1-p)^{n-k}\space dp&=\frac{1}{n}/{n-1\choose k-1}=\frac{1}{n}\cdot\frac{(k-1)!(n-k)!}{(n-1)!}=\frac{(k-1)!(n-k)!}{n!} \\ \therefore\frac{1}{\int_{0}^{1}p^{k-1}(1-p)^{n-k}\space dp}&=\frac{n!}{(k-1)!(n-k)!} \end{split} $$

(6) 순서통계량과의 관계. 이 사고실험에서 빨간색 당구공이 바로 순서통계량 $X_{(k)}$를 의미한다. $n$개의 공은 크기 $n$인 표본의 개체와 대응되며, 각 공의 크기, 무게 등 조건이 같다는 것은 모든 표본의 개체를 동등하게 취급하는, 단순무작위표본을 의미한다. 빨간색 당구공 왼쪽에 $(k-1)$개의 흰색 당구공이 있다는 것은 $X_{(k)}$보다 작은 개체가 $(k-1)$개 있다는 뜻이다.$X_{(k)}$가 $x$주위의 값을 가질 확률이 $X_{(k)}$의 확률밀도다. 이때, $x$보다 작은 것은 $X_{(1)},\cdots,X_{(k-1)}$와 같이 총 $(k-1)$개가 있어야 하고, $x$보다 큰 것은 $X_{(k+1)},\cdots,X_{(n)}$와 같이 총 $(n-k)$개가 있어야 한다. 순서통계량의 배치가 정확히 당구공의 배치와 같다.


note: 이항계수 ${n\choose k}=\frac{n!}{k!(n-k)!}$에 대한 생각. 총 $n$개의 항목에서 $k$개를 순서를 고려하지 않고 뽑았다는 것은, 이 $n$개의 항목을 먼저 나열한 후, 나열된 항목을 $k$개와 $(n-k)$개의 2부분으로 분할하고 각 부분에서 순서를 고려하지 않는 것과 마찬가지다. 어떤 부분의 순서를 고려하지 않겠다는 것은 가짓수를 따질 때 그 부분의 팩토리얼만큼 나눠줘야 한다는 것을 의미한다. 이 논리를 확장한 것이 바로 다항계수 $\frac{(n_1+n_2+\cdots+n_k)!}{n_1!n_2!\cdots n_k!}$이다.

'확률론과 수리통계' 카테고리의 다른 글

분위수  (0) 2023.02.11
경험적 분포함수  (0) 2023.02.10
순서통계량  (0) 2023.02.08
감마함수  (0) 2023.02.05
표본추출분포  (0) 2023.02.05