Mathematics

공분산

mathnotes 2023. 1. 1. 14:32
728x90

#1. 분산과 공분산

분산의 성질을 되짚어 보자. 확률변수 Xi의 선형합 ni=1aiXi의 분산은 다음과 같이 구한다.

Var(ni=1aiXi)=ni=1a2iVar(Xi)+ijaiajE[(XiE(Xi))(XjE(Xj))]

분산의 정의에 의해, 이 식에서 Var(Xi)=E[(XiE(Xi))(XiE(Xi))]이다. 즉, 선형합의 분산을 전개할 때, 인덱스가 같은 것의 기댓값은 분산으로 처리했고, 다른 것의 기댓값은 따로 뺐음을 알 수 있다.

이제 인덱스가 다른 것의 기댓값을 정의하기 위해 공분산(Covariance; 协方差)이라는 것을 정의해보자. 서로 다른 확률변수 XY의 공분산 Cov(X,Y)는 다음과 같이 정의된다.

Cov(X,Y):=E[(XE(X))(YE(Y))]

정의에 의해 Cov(X,X)=Var(X)이다. 즉, X의 분산은 XX의 공분산으로 일반화 할 수 있다. 이제 공분산을 이용하여 선형합의 분산을 전개해보자. 아래와 같이 깔끔하게 공식을 고칠 수 있다.

Var(ni=1aiXi)=ni,j=1aiajCov(Xi,Xj)

예를 들어 n=3을 가정하면 다음과 같이 전개된다.

Var(a1X1+a2X2+a3X3)=a1a1Cov(X1,X1)+a1a2Cov(X1,X2)+a1a3Cov(X1,X3)+a2a1Cov(X2,X1)+a2a2Cov(X2,X2)+a2a3Cov(X2,X3)+a3a1Cov(X3,X1)+a3a2Cov(X3,X2)+a3a3Cov(X3,X3)

그리고 aiajCov(Xi,Xj)=ajaiCov(Xj,Xi)임이 자명하므로 다음과 같은 공식도 얻을 수 있다.

Var(ni=1aiXi)=ni=1a2iVar(Xi)+2ni<jaiajCov(Xi,Xj)

#2. 독립과 비상관

공분산의 의미를 알아보기 위해 Cov(X,Y)를 변형해보자.

Cov(X,Y):=E[(XE(X))(YE(Y))]=E[XYXE(Y)YE(X)+E(X)E(Y)]=E[XY]E[XE(Y)]E[YE(X)]+E[E(X)E(Y)]=E[XY]E(Y)E[X]E(X)E[Y]+E(X)E(Y)=E(XY)E(X)E(Y)

여기서 만약 XY가 독립이라면 E(XY)=E(X)E(Y)이다. 따라서 다음과 같은 결과를 얻는다.

XYCov(X,Y)=0

이 명제의 역은 성립하지 않는다. E(XY)=E(X)E(Y)이라고 해서 반드시 XY의 독립을 보장하지는 않기 때문이다. XY가 독립이 아니지만 공분산이 0인 경우가 존재한다. 예를 들어 XY의 관측값이 단위원 x2+y2=1에 균등하게 분포하고 있다고 가정해보자.

만약 x=1일 경우 y=0이다. x=1/2일 경우 y=±3/4이다. x=1/4일 경우 y=±15/16이다. 이것을 일반화 해서 x=x0에 대해 y=±1x20이다. 즉, x가 어떤 값이든지 y의 관측값은 0이거나 한 쌍의 반수(Opposite Number; 相反数)이다. 그러므로 y의 관측값의 합은 항상 0이된다.

그리고 y가 균등하게 분포하고 있다고 가정했으므로 이 두가지의 값을 가질 확률은 0.5로 같다. 그래서 임의의 x에 대해 E(YX=x)를 계산해보면 항상 0이고, 같은 논리로 모든 y에 대해 E(XY=y)=0이다.

E(YX=x)=0.5(1x2)+0.5(+1x2)=0

이번에는 X=x라는 조건이 없다고 하고 E(Y)를 구해보자. 이 경우 Y의 관측값은 0이거나 여러쌍의 반수이다. 결국 기댓값을 구하는 도중 반수끼리 상쇄되어 0이 될 것이다. 따라서 다음과 같이 Cov(X,Y)=0임을 유도할 수 있다.

E(XY)=E[E(XYX=x)]=E[xE(YX=x)]=E[x0]=0E(X)E(Y)=00=0

공분산은 0이다. 하지만 XY는 결코 독립이라고 할 수 없다. X^2+Y^2=1이라는 아주 명확한 관계가 있다. 위와 같은 반례를 통해 공분산이 0이라는 사실이 두 확률변수의 ‘독립’을 의미하지는 않는다는 사실을 알 수 있다.

하지만 공분산이 0이라는 사실은 분명 의미가 있다. 이것을 비상관(Uncorrelated; 不相关)이라고 정의한다. 즉, 비상관의 정의는 ‘공분산이 0’으로 할 수 있고, 독립의 정의는 ‘결합분포를 주변분포의 곱으로 나타낼 수 있음’으로 하며, ‘독립은 비상관을 함축하지만 비상관은 그렇지 못하다’라고 요약할 수 있다.

\begin{split} &독립\Leftrightarrow f(x,y)=f_X(x)f_Y(y) \\ &비상관\Leftrightarrow \mathrm{Cov}(X,Y)=0 \\ &독립\Rightarrow비상관 \end{split}

\space


TFAE.

(1) \mathrm{Cov}(X,Y)=0

(2) \mathbb{E}(XY)=\mathbb{E}(X)\mathbb{E}(Y)

(3) \mathrm{Var}(X\pm Y)=\mathrm{Var}(X)+\mathrm{Var}(Y)


\space

note: 공분산이 0임을 ‘비상관’이라고 하는 이유는 ‘상관계수’라는 개념과 관련이 있다. 추후 작성 예정.

#3. 공분산의 성질

공분산이 포함된 식을 정리할 때 쓰는 성질들을 요약해둔다.

(1) \mathrm{Cov}(X,X)=\mathrm{Var}(X)

(2) \mathrm{Cov}(X,Y)=\mathrm{Cov}(Y,X)

(3) \mathrm{Cov}(aX,bY)=ab\mathrm{Cov}(X,Y)

(1)과 (2)는 공분산의 정의에 의해 당연히 성립하는 식이다. (2)는 공분산의 대칭성이라고 부른다. (3)은 기댓값의 선형성에 의해 성립한다.

선형합의 분산처럼 선형합의 공분산 역시 공식이 있다.

(4) \mathrm{Cov}(\sum_{i=1}^{n}a_iX_i,\sum_{j=1}^{m}b_jY_j)=\sum_{i=1}^{n}\sum_{j=1}^ma_ib_j\mathrm{Cov}(X_i,Y_j)

예를 들어, (n,m)=(2,2)의 경우 공분산을 전개했을 때 다음과 같이 2\times2=4개의 항이 있을 것이고

(n,m)=(2,1)의 경우 다음과 같이 2\times1=2개의 항이 있을 것이다.

\mathrm{Cov}(a_1X_1+a_2X_2,b_1Y_1)=a_1b_1\mathrm{Cov}(X_1,Y_1)+a_2b_1\mathrm{Cov}(X_2,Y_1)

728x90