순서통계량과 그 분포는 데이터의 순위를 중시하는 비모수검정, 질적 데이터 분석분야에 자주 쓰이므로 정리해둔다.
#1. 순서통계량
모집단 X에서 추출한 표본 X1,X2,⋯,Xn를 크기 순(작은 것부터)으로 나열한 것을 순서통계량(Order Statistic; 顺序统计量)이라고 하며, 다음과 같이 나타낸다.
X(1),X(2),⋯,X(n)
순서통계량은 여러개의 통계량을 나열한 수열이다. X(k)(k=1,⋯n)을 k번째 순서통계량이라고 한다. 순서통계량의 정의에 의해 k번째 순서통계량은 표본에서 k번째로 작은 개체다.
표본의 크기가 n일 때, 특히 중요한 1번째로 작은 개체(제일 작은 개체)인 최소값과 n번째로 작은 개체(제일 큰 개체)인 최대값을 각각 다음과 같이 나타낸다.
X(1):=min1≤i≤nXi=min(X1,⋯,Xn)X(n):=max1≤i≤nXi=max(X1,⋯,Xn)
#2. 순서통계량의 분포
순서통계량도 통계량이므로 표본추출분포를 갖는다. 모집단의 분포를 F(x)라고 할 때, X(k)의 확률밀도 f(k)(x)를 구하려고 한다.
어떻게 구할까? 먼저 X(k)가 어떤 구간 (x,x+Δx]에 놓일 확률질량을 구하고, 그 다음 구간의 길이 Δx→0으로 보내버리는 방식으로 접근하려고 한다.
f(k)(x)=limΔx→0P(X(k)∈(x,x+Δx])=limΔx→0[F(k)(x+Δx)−F(k)(x)]
f(k)(x)를 구하려 하는데 먼저 F(k)(x)를 구해야 한다는, 말도 안되는 짓을 해야한다. 지금 주어진 정보는 모집단의 분포 FX(x)가 있고, 이에 따라 IID Xi의 분포 역시 FX(x)이다. 이 정보들로 ‘X(k)가 어떤 구간 (x,x+Δx]에 놓일 확률질량’을 나타내야 하는 것이 1차 목표다.
그림을 그려보자. 그러면, 사건 {X(k)∈(x,x+Δx]}와 다음과 같은 사건은 사실상 같은 사건을 의미함을 알 수 있다. 따라서 확률도 같다.

X1,⋯,Xn에서(k−1)개의Xi≤x,1개의Xi∈(x,x+Δx],(n−k)개의Xi>x+Δx
이 사건은 X1,⋯,Xn을 3가지 경우로 분리해서 각 경우에 할당하는 방식으로 접근한다. 이는 다항분포를 구하는 논리와 완벽히 같고, IID Xi의 분포가 FX(x)이므로, 원래 구하려고했던 확률질량을 구할 수 있다.
P(X(k)∈(x,x+Δx])=n!(k−1)!1!(n−k)![FX(x)]k−1[FX(x+Δx)−FX(x)]1[1−FX(x+Δx)]n−k
이제 이 확률질량의 Δx→0인 극한을 구하면 순서통계량의 확률밀도를 얻는다.
f(k)(x)=n!(k−1)!(n−k)![F(x)]k−1f(x)[1−F(x)]n−k
#3. 확률변수의 최대, 최소의 분포
위에서 구한 f(k)(x)에 k=1을 대입하면 최소값 X(1)의 확률밀도, k=n을 대입하면 최대값 X(n)의 확률밀도를 얻는다.
f(1)(x)=nf(x)[1−F(x)]n−1f(n)(x)=n[F(x)]n−1f(x)
그런데 지난 글에서 이미 확률변수의 최대, 최소의 확률밀도를 구한 적이 있다. 그 결과와 완벽히 동일한다. 그때는 먼저 정의를 이용해서 최대, 최소의 누적분포함수를 구하고, 그것을 미분해서 확률밀도함수를 얻었다. 이번에는 순서통계량의 방식으로 접근한 것이다.
#4. 순서통계량의 결합분포
이번에는 여러개의 순서통계량의 결합분포를 구해보자.
먼저 f(j)(k)(x,y)를 구해보자. (x≤y를 가정.) 위에서 썼던 방법 그대로, 확률질량
P(X(j)∈(x,x+Δx],X(k)∈(y,y+Δy])
을 구한 다음, (Δx,Δy)→(0,0)의 극한을 취해서 각 구간의 길이를 0으로 보내버릴 것이다.

여기서 (j,k)=(1,n)으로 놓으면, 최대값과 최소값의 결합분포를 구할 수 있다.
f(1)(n)(x,y)=n(n−1)f(x)[F(y)−F(x)]n−2f(y),x≤y
다음으로, 모든 순서통계량의 결합확률밀도 f(1)⋯(n)(x1,⋯,xn)을 생각해보자. 각 점마다 대응되는 미세구간이 하나씩 있고, 해당 구간에 속할 확률밀도의 곱을 구해야한다. 한편, n개의 점을 순서를 따지며 배열하는 가짓수를 곱해야 하므로,
f(1)⋯(n)(x1,⋯,xn)=n!f(x1)⋯f(xn),x1≤⋯≤xn
'Mathematics' 카테고리의 다른 글
경험적 분포함수 (0) | 2023.02.10 |
---|---|
순서통계량과 베타분포 (0) | 2023.02.09 |
감마함수 (0) | 2023.02.05 |
표본추출분포 (0) | 2023.02.05 |
통계학 기본 용어 정리 (0) | 2023.02.02 |