본문 바로가기

확률론과 수리통계

공분산

#1. 분산과 공분산

분산의 성질을 되짚어 보자. 확률변수 $X_i$의 선형합 $\sum_{i=1}^{n}a_iX_i$의 분산은 다음과 같이 구한다.

$$
\mathrm{Var}\left(\sum_{i=1}^{n}a_iX_i\right)=\sum_{i=1}^{n}a_i^2\mathrm{Var}(X_i)+\sum_{i\not=j}a_ia_j\mathbb{E}\lbrack (X_i-\mathbb{E}(X_i))(X_j-\mathbb{E}(X_j)) \rbrack
$$

분산의 정의에 의해, 이 식에서 $\mathrm{Var}(X_i)=\mathbb{E}\lbrack (X_i-\mathbb{E}(X_i))(X_i-\mathbb{E}(X_i)) \rbrack$이다. 즉, 선형합의 분산을 전개할 때, 인덱스가 같은 것의 기댓값은 분산으로 처리했고, 다른 것의 기댓값은 따로 뺐음을 알 수 있다.

이제 인덱스가 다른 것의 기댓값을 정의하기 위해 공분산(Covariance; 协方差)이라는 것을 정의해보자. 서로 다른 확률변수 $X$와 $Y$의 공분산 $\mathrm{Cov}(X,Y)$는 다음과 같이 정의된다.

$$
\mathrm{Cov}(X,Y):=\mathbb{E}[(X-\mathbb{E}(X))(Y-\mathbb{E}(Y))]
$$

정의에 의해 $\mathrm{Cov}(X,X)=\mathrm{Var}(X)$이다. 즉, $X$의 분산은 $X$와 $X$의 공분산으로 일반화 할 수 있다. 이제 공분산을 이용하여 선형합의 분산을 전개해보자. 아래와 같이 깔끔하게 공식을 고칠 수 있다.

$$
\mathrm{Var}\left(\sum_{i=1}^{n}a_iX_i\right)=\sum_{i,j=1}^{n}a_ia_j\mathrm{Cov}(X_i,X_j)
$$

예를 들어 $n=3$을 가정하면 다음과 같이 전개된다.

$$
\begin{split}
&\mathrm{Var}(a_1X_1+a_2X_2+a_3X_3)
\\
&=a_1a_1\mathrm{Cov}(X_1,X_1)+a_1a_2\mathrm{Cov}(X_1,X_2)+a_1a_3\mathrm{Cov}(X_1,X_3)
\\
&+a_2a_1\mathrm{Cov}(X_2,X_1)+a_2a_2\mathrm{Cov}(X_2,X_2)+a_2a_3\mathrm{Cov}(X_2,X_3)
\\
&+a_3a_1\mathrm{Cov}(X_3,X_1)+a_3a_2\mathrm{Cov}(X_3,X_2)+a_3a_3\mathrm{Cov}(X_3,X_3)
\end{split}
$$

그리고 $a_ia_j\mathrm{Cov}(X_i,X_j)=a_ja_i\mathrm{Cov}(X_j,X_i)$임이 자명하므로 다음과 같은 공식도 얻을 수 있다.

$$
\mathrm{Var}\left(\sum_{i=1}^{n}a_iX_i\right)=\sum_{i=1}^{n}a_i^2\mathrm{Var}(X_i)+2\sum_{i<j}^{n}a_ia_j\mathrm{Cov}(X_i,X_j)
$$

#2. 독립과 비상관

공분산의 의미를 알아보기 위해 $\mathrm{Cov}(X,Y)$를 변형해보자.

$$ \begin{split} \mathrm{Cov}(X,Y)&:=\mathbb{E}[(X-\mathbb{E}(X))(Y-\mathbb{E}(Y))] \\ &=\mathbb{E}[XY-X\mathbb{E}(Y)-Y\mathbb{E}(X)+\mathbb{E}(X)\mathbb{E}(Y)] \\ &=\mathbb{E}[XY]-\mathbb{E}[X\mathbb{E}(Y)]-\mathbb{E}[Y\mathbb{E}(X)]+\mathbb{E}[\mathbb{E}(X)\mathbb{E}(Y)] \\ &=\mathbb{E}[XY]-\mathbb{E}(Y)\mathbb{E}[X]-\mathbb{E}(X)\mathbb{E}[Y]+\mathbb{E}(X)\mathbb{E}(Y) \\ &=\mathbb{E}(XY)-\mathbb{E}(X)\mathbb{E}(Y) \end{split} $$

여기서 만약 $X$와 $Y$가 독립이라면 $\mathbb{E}(XY)=\mathbb{E}(X)\mathbb{E}(Y)$이다. 따라서 다음과 같은 결과를 얻는다.

$$ X\perp Y\Rightarrow\mathrm{Cov}(X,Y)=0 $$

이 명제의 역은 성립하지 않는다. $\mathbb{E}(XY)=\mathbb{E}(X)\mathbb{E}(Y)$이라고 해서 반드시 $X$와 $Y$의 독립을 보장하지는 않기 때문이다. $X$와 $Y$가 독립이 아니지만 공분산이 0인 경우가 존재한다. 예를 들어 $X$와 $Y$의 관측값이 단위원 $x^2+y^2=1$에 균등하게 분포하고 있다고 가정해보자.

만약 $x=1$일 경우 $y=0$이다. $x=1/2$일 경우 $y=\pm\sqrt{3/4}$이다. $x=1/4$일 경우 $y=\pm\sqrt{15/16}$이다. 이것을 일반화 해서 $x=x_0$에 대해 $y=\pm\sqrt{1-x_0^2}$이다. 즉, $x$가 어떤 값이든지 $y$의 관측값은 0이거나 한 쌍의 반수(Opposite Number; 相反数)이다. 그러므로 $y$의 관측값의 합은 항상 0이된다.

그리고 $y$가 균등하게 분포하고 있다고 가정했으므로 이 두가지의 값을 가질 확률은 0.5로 같다. 그래서 임의의 $x$에 대해 $\mathbb{E}(Y\mid X=x)$를 계산해보면 항상 0이고, 같은 논리로 모든 $y$에 대해 $\mathbb{E}(X\mid Y=y)=0$이다.

$$ \mathbb{E}(Y\mid X=x)=0.5\cdot\left(-\sqrt{1-x^2}\right)+0.5\cdot\left(+\sqrt{1-x^2}\right)=0 $$

이번에는 $X=x$라는 조건이 없다고 하고 $\mathbb{E}(Y)$를 구해보자. 이 경우 $Y$의 관측값은 0이거나 여러쌍의 반수이다. 결국 기댓값을 구하는 도중 반수끼리 상쇄되어 0이 될 것이다. 따라서 다음과 같이 $\mathrm{Cov}(X,Y)=0$임을 유도할 수 있다.

$$ \begin{split} &\mathbb{E}(XY)=\mathbb{E}[\mathbb{E}(XY\mid X=x)]=\mathbb{E}[x\cdot\mathbb{E}(Y\mid X=x)]=\mathbb{E}[x\cdot 0]=0 \\ &\mathbb{E}(X)\mathbb{E}(Y)=0\cdot 0=0 \\ &\therefore \mathrm{Cov}(X,Y)=\mathbb{E}(XY)-\mathbb{E}(X)\mathbb{E}(Y)=0-0=0 \end{split} $$

공분산은 0이다. 하지만 $X$와 $Y$는 결코 독립이라고 할 수 없다. $X^2+Y^2=1$이라는 아주 명확한 관계가 있다. 위와 같은 반례를 통해 공분산이 0이라는 사실이 두 확률변수의 ‘독립’을 의미하지는 않는다는 사실을 알 수 있다.

하지만 공분산이 0이라는 사실은 분명 의미가 있다. 이것을 비상관(Uncorrelated; 不相关)이라고 정의한다. 즉, 비상관의 정의는 ‘공분산이 0’으로 할 수 있고, 독립의 정의는 ‘결합분포를 주변분포의 곱으로 나타낼 수 있음’으로 하며, ‘독립은 비상관을 함축하지만 비상관은 그렇지 못하다’라고 요약할 수 있다.

$$
\begin{split}
&독립\Leftrightarrow f(x,y)=f_X(x)f_Y(y)
\\
&비상관\Leftrightarrow \mathrm{Cov}(X,Y)=0
\\
&독립\Rightarrow비상관
\end{split}
$$

$\space$


TFAE.

(1) $\mathrm{Cov}(X,Y)=0$

(2) $\mathbb{E}(XY)=\mathbb{E}(X)\mathbb{E}(Y)$

(3) $\mathrm{Var}(X\pm Y)=\mathrm{Var}(X)+\mathrm{Var}(Y)$


$\space$

note: 공분산이 0임을 ‘비상관’이라고 하는 이유는 ‘상관계수’라는 개념과 관련이 있다. 추후 작성 예정.

#3. 공분산의 성질

공분산이 포함된 식을 정리할 때 쓰는 성질들을 요약해둔다.

(1) $\mathrm{Cov}(X,X)=\mathrm{Var}(X)$

(2) $\mathrm{Cov}(X,Y)=\mathrm{Cov}(Y,X)$

(3) $\mathrm{Cov}(aX,bY)=ab\mathrm{Cov}(X,Y)$

(1)과 (2)는 공분산의 정의에 의해 당연히 성립하는 식이다. (2)는 공분산의 대칭성이라고 부른다. (3)은 기댓값의 선형성에 의해 성립한다.

선형합의 분산처럼 선형합의 공분산 역시 공식이 있다.

(4) $\mathrm{Cov}(\sum_{i=1}^{n}a_iX_i,\sum_{j=1}^{m}b_jY_j)=\sum_{i=1}^{n}\sum_{j=1}^ma_ib_j\mathrm{Cov}(X_i,Y_j)$

예를 들어, $(n,m)=(2,2)$의 경우 공분산을 전개했을 때 다음과 같이 $2\times2=4$개의 항이 있을 것이고

$(n,m)=(2,1)$의 경우 다음과 같이 $2\times1=2$개의 항이 있을 것이다.

$$
\mathrm{Cov}(a_1X_1+a_2X_2,b_1Y_1)=a_1b_1\mathrm{Cov}(X_1,Y_1)+a_2b_1\mathrm{Cov}(X_2,Y_1)
$$

'확률론과 수리통계' 카테고리의 다른 글

이변량 정규분포  (0) 2023.01.09
상관계수  (0) 2023.01.02
분산과 표준편차  (0) 2022.12.28
평균과 기댓값  (0) 2022.12.27
Irwin-Hall 분포  (0) 2022.12.25