본문 바로가기

확률론과 수리통계

순서통계량

순서통계량과 그 분포는 데이터의 순위를 중시하는 비모수검정, 질적 데이터 분석분야에 자주 쓰이므로 정리해둔다.

#1. 순서통계량

모집단 $X$에서 추출한 표본 $X_1,X_2,\cdots,X_n$를 크기 순(작은 것부터)으로 나열한 것을 순서통계량(Order Statistic; 顺序统计量)이라고 하며, 다음과 같이 나타낸다.

$$ X_{(1)},X_{(2)},\cdots,X_{(n)} $$

순서통계량은 여러개의 통계량을 나열한 수열이다. $X_{(k)}(k=1,\cdots n)$을 $k$번째 순서통계량이라고 한다. 순서통계량의 정의에 의해 $k$번째 순서통계량은 표본에서 $k$번째로 작은 개체다.

표본의 크기가 $n$일 때, 특히 중요한 1번째로 작은 개체(제일 작은 개체)인 최소값과 $n$번째로 작은 개체(제일 큰 개체)인 최대값을 각각 다음과 같이 나타낸다.

$$ X_{(1)}:=\min_{1\le i\le n}X_i=\min(X_1,\cdots,X_n) \\ X_{(n)}:=\max_{1\le i\le n}X_i=\max(X_1,\cdots,X_n) $$

#2. 순서통계량의 분포

순서통계량도 통계량이므로 표본추출분포를 갖는다. 모집단의 분포를 $F(x)$라고 할 때, $X_{(k)}$의 확률밀도 $f_{(k)}(x)$를 구하려고 한다.

어떻게 구할까? 먼저 $X_{(k)}$가 어떤 구간 $(x,x+\Delta x]$에 놓일 확률질량을 구하고, 그 다음 구간의 길이 $\Delta x\to0$으로 보내버리는 방식으로 접근하려고 한다.

$$ f_{(k)}(x)=\lim_{\Delta x\to 0} P(X_{(k)}\in(x,x+\Delta x])=\lim_{\Delta x\to 0}[F_{(k)}(x+\Delta x)-F_{(k)}(x)] $$

$f_{(k)}(x)$를 구하려 하는데 먼저 $F_{(k)}(x)$를 구해야 한다는, 말도 안되는 짓을 해야한다. 지금 주어진 정보는 모집단의 분포 $F_X(x)$가 있고, 이에 따라 IID $X_i$의 분포 역시 $F_X(x)$이다. 이 정보들로 ‘$X_{(k)}$가 어떤 구간 $(x,x+\Delta x]$에 놓일 확률질량’을 나타내야 하는 것이 1차 목표다.

그림을 그려보자. 그러면, 사건 $\lbrace X_{(k)}\in(x,x+\Delta x]\rbrace$와 다음과 같은 사건은 사실상 같은 사건을 의미함을 알 수 있다. 따라서 확률도 같다.

$$ \begin{split} X_1,\cdots,X_n에서\enspace &(k-1)개의\enspace X_i\le x, \\ \enspace &1개의\enspace X_i\in(x,x+\Delta x], \\ \enspace &(n-k)개의\enspace X_i>x+\Delta x \end{split} $$

이 사건은 $X_1,\cdots,X_n$을 3가지 경우로 분리해서 각 경우에 할당하는 방식으로 접근한다. 이는 다항분포를 구하는 논리와 완벽히 같고, IID $X_i$의 분포가 $F_X(x)$이므로, 원래 구하려고했던 확률질량을 구할 수 있다.

$$ \begin{split} P(X_{(k)}\in(x,x+\Delta x])=\frac{n!}{(k-1)!1!(n-k)!}[F_X(x)]^{k-1}[F_X(x+\Delta x)-F_X(x)]^{1}[1-F_X(x+\Delta x)]^{n-k} \end{split} $$

이제 이 확률질량의 $\Delta x\to0$인 극한을 구하면 순서통계량의 확률밀도를 얻는다.

$$ f_{(k)}(x)=\frac{n!}{(k-1)!(n-k)!}[F(x)]^{k-1}f(x)[1-F(x)]^{n-k} $$

#3. 확률변수의 최대, 최소의 분포

위에서 구한 $f_{(k)}(x)$에 $k=1$을 대입하면 최소값 $X_{(1)}$의 확률밀도, $k=n$을 대입하면 최대값 $X_{(n)}$의 확률밀도를 얻는다.

$$ \begin{split} &f_{(1)}(x)=nf(x)[1-F(x)]^{n-1} \\ &f_{(n)}(x)=n[F(x)]^{n-1}f(x) \end{split} $$

그런데 지난 글에서 이미 확률변수의 최대, 최소의 확률밀도를 구한 적이 있다. 그 결과와 완벽히 동일한다. 그때는 먼저 정의를 이용해서 최대, 최소의 누적분포함수를 구하고, 그것을 미분해서 확률밀도함수를 얻었다. 이번에는 순서통계량의 방식으로 접근한 것이다.

#4. 순서통계량의 결합분포

이번에는 여러개의 순서통계량의 결합분포를 구해보자.

먼저 $f_{(j)(k)}(x,y)$를 구해보자. ($x\le y$를 가정.) 위에서 썼던 방법 그대로, 확률질량

$$ P(X_{(j)}\in(x,x+\Delta x],X_{(k)}\in(y,y+\Delta y]) $$

을 구한 다음, $(\Delta x,\Delta y)\to(0,0)$의 극한을 취해서 각 구간의 길이를 0으로 보내버릴 것이다.

여기서 $(j,k)=(1,n)$으로 놓으면, 최대값과 최소값의 결합분포를 구할 수 있다.

$$ f_{(1)(n)}(x,y)=n(n-1)f(x)[F(y)-F(x)]^{n-2}f(y),x\le y $$

다음으로, 모든 순서통계량의 결합확률밀도 $f_{(1)\cdots(n)}(x_1,\cdots,x_n)$을 생각해보자. 각 점마다 대응되는 미세구간이 하나씩 있고, 해당 구간에 속할 확률밀도의 곱을 구해야한다. 한편, $n$개의 점을 순서를 따지며 배열하는 가짓수를 곱해야 하므로,

$$ f_{(1)\cdots(n)}(x_1,\cdots,x_n)=n!f(x_1)\cdots f(x_n),x_1\le\cdots\le x_n $$

'확률론과 수리통계' 카테고리의 다른 글

경험적 분포함수  (0) 2023.02.10
순서통계량과 베타분포  (0) 2023.02.09
감마함수  (0) 2023.02.05
표본추출분포  (0) 2023.02.05
통계학 기본 용어 정리  (0) 2023.02.02