본문 바로가기

전체 글

(87)
상관계수 지난 글에서 공분산이 0임을 비상관으로 정의했다. ‘비상관’은 문자 그대로 서로 관련이 없음을 의미한다. 그렇다면 공분산이 0이 아닌 다른 값이면 두 확률변수는 서로 관련이 있다는 것이다. 그리고 기왕이면 공분산의 절대값이 커질 수록 두 변수 사이의 관련성이 커지면 좋겠다. 이는 공분산으로 두 변수 간의 상관성을 측정하려는 시도라고 볼 수 있다. 그런데 이렇게 하면 문제가 하나 있는데, 변수의 단위가 달라진다는 데 있다. 공분산은 분산의 일반화이므로 분산과 같은 문제점을 안고 있는 것이다. 분산의 경우, 루트를 씌워 표준편차를 정의하여 해결했다. 하지만 영국의 수학자 칼 피어슨(Karl Pearson)은 다른 방식으로 이 문제를 해결했다. 바로 다음과 같이 $X$와 $Y$의 상관계수(Correlation..
공분산 #1. 분산과 공분산 분산의 성질을 되짚어 보자. 확률변수 $X_i$의 선형합 $\sum_{i=1}^{n}a_iX_i$의 분산은 다음과 같이 구한다. $$ \mathrm{Var}\left(\sum_{i=1}^{n}a_iX_i\right)=\sum_{i=1}^{n}a_i^2\mathrm{Var}(X_i)+\sum_{i\not=j}a_ia_j\mathbb{E}\lbrack (X_i-\mathbb{E}(X_i))(X_j-\mathbb{E}(X_j)) \rbrack $$ 분산의 정의에 의해, 이 식에서 $\mathrm{Var}(X_i)=\mathbb{E}\lbrack (X_i-\mathbb{E}(X_i))(X_i-\mathbb{E}(X_i)) \rbrack$이다. 즉, 선형합의 분산을 전개할 때, 인덱스가 같은..
분산과 표준편차 #1. 분산과 표준편차의 정의 확률변수의 분산(Variance; 方差)은 확률변수 관측값이 ‘흩어진 정도’를 나타낸다. 분산을 나타내는 기호로는 $\mathrm{Var}(X)$, $\mathrm{Var}[X]$, $V(X)$, $V[X]$ 등이 있다. 우선 다음과 같이 분산을 정의해보자. $$ \mathrm{Var}(X):=X의\enspace관측값이\enspace흩어진\enspace정도 $$ 여기서 관측값이 흩어진 정도는 어떻게 나타낼 수 있을까? ‘흩어져있다’는 것은 어떤 ‘기준’에서 떨어져있음을 뜻한다. 먼저 이 기준을 세우자. 바로 지난글에서 소개한 기댓값, 즉 평균적인 추세가 기준이 되기에 적합하다. 따라서 $X$의 관측값 $x$가 ‘흩어진 정도’는 $x$와 $\mathbb{E}(X)$사이의 ‘거..
평균과 기댓값 #1. 평균과 기댓값의 정의 어떤 학생의 기말고사 성적이 다음과 같다고 하자. 이 경우 이 학생의 평균성적은 다음과 같이 계산된다. $$ 평균성적=\frac{85+92+98}{3}=\frac{85+92+98}{1+1+1} $$ 이것은 전형적인 평균의 산출 예시이다. 이 예시에서는 각 과목의 가중치(Weight; 权重)가 1:1:1로 동일함을 가정하고 있다. 즉, 수학에서 100점을 맞느냐 영어에서 100점을 맞느냐가 동일한 취급을 받기 때문에 단순 합산해서 나누는 방식으로 평균이 계산된다. 만약 평정자가 수학점수를 중시하여, 피평정자의 수학점수에만 2배의 가중치를 부여했다고 가정할 경우, 평균은 다음과 같이 계산된다. $$ 평균성적=\frac{85+92+98\times 2}{1+1+2} $$ 즉, 수학에..
Irwin-Hall 분포 지난 글에서 구간의 길이가 같은 두 균등분포의 합성곱은 대칭삼각분포임을 보였다. 이번 글에서는 이것을 일반화하여 3개의 균등분포, 4개의 균등분포, 더 나아가 임의의 $n$개의 균등분포에 대한 합성곱 연산이 어떤 결과를 가져다 주는지 알아보자. 이 모든 결과는 Irwin-Hall 분포 한 가지로 나타낼 수 있다. Irwin-Hall 분포는 다음과 같이 정의되는 분포이다: $\space$ i.i.d. $X_i\sim\mathrm{U}(0,1)(i=1,2,\cdots,n)$이면 $X:=\sum_{i=1}^{n}X_i$는 모수가 $n$인 Irwin-Hall 분포를 따른다. $\space$ 즉, Irwin-Hall 분포는 서로 독립인 표준균등분포의 합성곱이다. 모수가 $n$인 Irwin-Hall 분포의 확률밀도..
삼각분포 #1. 삼점추정과 삼각분포 어떤 확률변수가 있는데 그것의 자세한 분포를 모를 때, 흔히 삼점추정(Three-point Estimation; 三点估计)으로 해결하곤 한다. 삼점이란, 관측값의 최소, 최대, 최빈값을 의미한다. 즉, 확률변수가 가질 수 있는 양극단의 값 $a$, $b$와 가장 많이 등장하는 관측값 $c$로 분포를 묘사하는 것이다. note: 예를 들어, 가게의 한 달 매출 $X$가 $x$이상일 확률을 추정하고 싶을 때, 우선 과거의 경험에 비추어 $X$의 범위를 설정한다. 여기서 $a$와 $b$가 결정된다. 그리고 최고봉에서 매출이 얼마나 나왔는지에 따라 $c$가 결정된다. 그러면 $P(X\ge x)=1-P(X
확률변수의 최대, 최소의 분포 이번 글에서는 확률변수의 최대, 최소의 분포를 알아보자. 구체적으로 확률변수 $X$와 $Y$의 결합분포 $f_{X,Y}(x,y)$를 이미 알고 있을 때, 새로운 확률변수 $U=\max(X,Y)$와 $V=\min(X,Y)$의 분포 $f_{\max}(u)$와 $f_{\min}(v)$를 구하는 법을 알아볼 것이다. #1. 이산확률변수의 최대, 최소 이산확률변수 $X$의 관측값이 $x_1v) \\ &=P(X_i\le u)-P(X_i\le u,X_i>v) \\ &= \begin{cases} P(X_i\le u)-P(vv \\ P(X_i\le u),&u\le v \end{cases} \\ &= \begin{cases} [F_X(u)]^n-[F_X(u)-F_X(v)]^n,&u>v \\ [F_X(u)]^n,&u\le ..
확률변수의 사칙연산의 분포 이번 글에서는 확률변수 $X$와 $Y$의 결합분포 $f_{X,Y}$를 알고 있을 때 $f_{X+Y}$, $f_{X-Y}$, $f_{XY}$, $f_{X/Y}$를 구하는 법을 정리해보자. 여기서 얻은 결과들은 서로 독립인 확률변수 $X$와 $Y$의 분포 $f_X$와 $f_Y$를 알고 있을 때도 써먹을 수 있다(확률의 곱셈 참조). #1. 합, 차의 분포 두 확률변수의 합의 분포는 다음과 같이 지난 글에서 설명한 합성곱을 떠올리면 된다. $$ \begin{split} (이산인\enspace 경우)\space &f_{X+Y}(z)=\sum_{x}f_X(x)f_Y(z-x),x\in\mathbb{Z} \\ &\Downarrow \\ (연속인\enspace 경우)\space &f_{X+Y}(z)=\int_{-\in..