본문 바로가기

확률론과 수리통계

분산과 표준편차

#1. 분산과 표준편차의 정의

확률변수의 분산(Variance; 方差)은 확률변수 관측값이 ‘흩어진 정도’를 나타낸다. 분산을 나타내는 기호로는 $\mathrm{Var}(X)$, $\mathrm{Var}[X]$, $V(X)$, $V[X]$ 등이 있다. 우선 다음과 같이 분산을 정의해보자.

$$ \mathrm{Var}(X):=X의\enspace관측값이\enspace흩어진\enspace정도 $$

여기서 관측값이 흩어진 정도는 어떻게 나타낼 수 있을까? ‘흩어져있다’는 것은 어떤 ‘기준’에서 떨어져있음을 뜻한다. 먼저 이 기준을 세우자. 바로 지난글에서 소개한 기댓값, 즉 평균적인 추세가 기준이 되기에 적합하다.

따라서 $X$의 관측값 $x$가 ‘흩어진 정도’는 $x$와 $\mathbb{E}(X)$사이의 ‘거리’, 즉 $\vert x-\mathbb{E}(X)\vert$로 나타내면 되겠다. 이것을 절대편차(Absolute Deviation; 绝对离差)라고 한다.

만약 $n$개의 관측값이 있다면, $x_i(i=1,2,\cdots,n)$과 $\mathbb{E}(X)$사이의 거리를 모두 더하고, 다시 이것을 관측값의 개수인 $n$으로 나누어 ‘평균적인 흩어진 정도’를 표현하면 되겠다. 이 경우 $X$의 분산은 다음과 같이 정의될 것이고, 이것을 평균절대편차(Mean Absolute Deviation, MAD; 平均绝对离差)라고 한다.

$$ \mathrm{Var}(X):=\frac{1}{n}\sum_{i=1}^{n}\vert x_i-\mathbb{E}(X)\vert $$

이 공식은 매우 깔끔하고, 전하고자 하는 의미도 잘 전달되고 있다. 다만 문제가 하나 있다면, 바로 절댓값 기호로 인해 미분 불가능점이 존재한다는 것이다. 어떤 함수가 미분 불가능하다는 것은 실제 응용측면에서 매우 치명적인 문제이다. 또 코딩을 할 때, 값의 부호를 생각해야 하는 등 각종 귀찮음을 유발한다.

note: 사실 MAD는 미분 불가능, 부호문제 외에도 다른 문제가 있다. 바로 MAD가 최소가 되는 점이 $x=\mathbb{E}(X)$, 즉 평균이 아닌 $x=\mathrm{Med}(X)$, 중앙값(Median; 中位数)이라는 점이다. 애초에 세웠던 기준이 잘못되었다는 뜻이다. 따라서 MAD를 쓸 경우 기준은 평균이 아닌 중앙값이 되어야 하고, 이 경우 중앙값은 계산하기 복잡하다는 문제가 추가되며 상기한 절댓값 기호의 문제점은 그대로 남는다.

그러면 이 절댓값 기호를 벗기면 문제가 해결될까? 절대편차 대신 편차(Deviation; 离差)의 평균으로 분산을 나타내보자. 이렇게 하면 또 다른 문제가 생기는 것을 알 수 있다.

$$ \begin{split} \mathrm{Var}(X)&:=\frac{1}{n}\sum_{i=1}^{n} (x_i-\mathbb{E}(X)) \\ &=\frac{1}{n}\sum_{i=1}^{n}x_i-\frac{1}{n}\cdot n\mathbb{E}(X)=\mathbb{E}(X)-\mathbb{E}(X)=0 \end{split} $$

즉, 모든 확률변수의 분산은 항상 0이라는 이상한 정의를 하게 된다. 절댓값 기호를 벗기는 순간, 각 편차들은 양수와 음수가 혼재되어있을 것이고, 이 모든것을 합하면 서로 상쇄되어 0이 되는 것이다. 이른바 부호의 문제이다. 결국 절댓값 기호가 없어도 문제가 생긴다.

미분이 가능하며, 부호문제를 일으키지 않는 것, 이 두 마리 토끼를 모두 잡을 수 있는 방법이 바로 편차를 먼저 제곱하는 것이다. 이것이 바로 편차제곱합(Sum of Squares of Deviation, SSD; 离差平方和)에 의한 분산의 정의이다.

$$ \mathrm{Var}(X):=\frac{1}{n}\sum_{i=1}^{n} (x_i-\mathbb{E}(X))^2 $$

식의 우변은 사실 $(X-\mathbb{E}(X))^2$이라는 확률변수의 기댓값이다. 따라서 분산의 최종적인 정의는 다음과 같다.

$$ \mathrm{Var}(X):=\mathbb{E}\lbrack(X-\mathbb{E}(X))^2\rbrack=\int_{-\infty}^{\infty}(x-\mathbb{E}(X))^2\space dF_X(x) $$

이렇게 정의한 분산은 미분도 가능하고, 부호문제도 일으키지 않는다. 그런데 또 다른 문제가 생겼다. 바로 원래의 관측값과 단위가 달라진다는 것이다. 이론전개에서는 문제가 되지 않을지라도 실제 응용측면에서는 문제가 된다. 예를 들어 $X$가 어떤 반 학생들의 키를 나타낸다고 하자. 길이의 단위는 $\mathrm{cm}$이다. 그런데 $X$의 분산을 구하면 단위가 면적의 단위인 $\mathrm{cm^2}$으로 바뀌어 버린다.

이와 같은 문제를 해결하기 위해, 분산에 루트를 씌운 값인 표준편차(Standard Deviation, SD; 标准差)를 정의한다.

$$ \mathrm{SD}(X):=\sqrt{\mathrm{Var}(X)} $$

#2. 분산의 성질

(1) $\mathrm{Var}(X)=\mathbb{E}(X^2)-\lbrack\mathbb{E}(X)\rbrack^2$

이른바 ‘제곱의 평균 빼기 평균의 제곱’이라 불리는, 분산을 계산할 때 자주 쓰이는 공식이다. 증명은 다음과 같이 기댓값의 선형성을 이용해 분산의 정의를 변형해서 한다.

$$ \begin{split} \mathrm{Var}(X)&:=\mathbb{E}\lbrack(X-\mathbb{E}(X))^2\rbrack \\ &=\mathbb{E}(X^2-2X\mu+\mu^2),\space\mu:=\mathbb{E}(X) \\ &=\mathbb{E}(X^2)-2\mu\mathbb{E}(X)+\mathbb{E}(\mu^2) \\ &=\mathbb{E}(X^2)-2\mu^2+\mu^2 \\ &=\mathbb{E}(X^2)-\mu^2 \end{split} $$

(2) 상수의 분산은 0이다.

분산이 데이터의 흩어진 정도를 표현한다는 사실에 비추어 보면 당연하다. 또는 다음과 같이 수학적으로 보일 수 있다.

$$ \mathrm{Var}(c)=\mathbb{E}(c^2)-[\mathbb{E}(c)]^2=c^2-[c]^2=0 $$

note: 이 명제의 역은 성립하지 않는다. 디리클레함수같은 좋은 반례들이 있기 때문. 하지만 이런 반례들을 감안한 채 ‘분산이 0이면 거의 어디서나 확률변수의 관측값이 상수이다.’라고 표현할 수도 있다. ‘거의 어디서나’라는 단서를 붙이면 가능하다는 것이다. (추후 작성 예정.)

(3) 선형합의 분산

$$ \mathrm{Var}\left(\sum_{i=1}^{n}a_iX_i\right)=\sum_{i=1}^{n}a_i^2\mathrm{Var}(X_i)+\sum_{i\not=j}a_ia_j\mathbb{E}\lbrack (X_i-\mathbb{E}(X_i))(X_j-\mathbb{E}(X_j)) \rbrack $$

note: 이 식에서 $\mathbb{E}\lbrack (X_i-\mathbb{E}(X_i))(X_j-\mathbb{E}(X_j)) \rbrack$를 $X_i$와 $X_j$의 공분산(Covariance; 协方差)이라고 하며, 기호로는 $\mathrm{Cov}(X_i,X_j)$라고 쓴다. 추후 작성 예정.

여기서 만약 $X_i$의 독립을 가정하면 다음이 성립한다.

$$ \begin{split} &\mathbb{E}\lbrack (X_i-\mathbb{E}(X_i))(X_j-\mathbb{E}(X_j)) \rbrack \\ &=\mathbb{E}\lbrack X_iX_j-X_i\mu_j-\mu_iX_j+\mu_i\mu_j\rbrack,\space\mu:=\mathbb{E}(X) \\ &=\mathbb{E}(X_iX_j)-\mathbb{E}(X_i\mu_j)-\mathbb{E}(\mu_iX_j)+\mathbb{E}(\mu_i\mu_j) \\ &=\mu_i\mu_j-\mu_j\mu_i-\mu_i\mu_j+\mu_i\mu_j=0, \\[2ex] &\therefore\mathrm{Var}\left(\sum_{i=1}^{n}a_iX_i\right)=\sum_{i=1}^{n}a_i^2\mathrm{Var}(X_i) \end{split} $$

(4) 조건부 분산

$X=x$인 조건 하의 $Y$의 조건부 분산(Conditional Variance; 条件方差)을 다음과 같이 정의한다. 조건부 기댓값과 마찬가지로, $x$에 관한 함수이다.

$$ \mathrm{Var}(Y\mid x):=\mathrm{Var}(Y\mid X=x)=\mathbb{E}[(Y-\mathbb{E}(Y\mid x))^2\mid x] $$

(5) 전체분산의 법칙

다음과 같이 어떤 확률변수의 분산은 ‘조건부 분산의 기댓값과 조건부 기댓값의 분산의 합으로 표현될 수 있다’는 법칙을 전체분산의 법칙(Law of Total Variance; 全方差法则)이라고 한다.

$$ \mathrm{Var}(Y)=\mathbb{E}[\mathrm{Var}(Y\mid x)]+\mathrm{Var}[\mathbb{E}(Y\mid x)] $$

이 법칙은 흔히 회귀분석(Regression Analysis; 回归分析)과 같은 예측문제에서 자주 쓰인다. $X=x$라는 조건이 주어졌을 때, $Y$의 예측값을 $\hat{y}(x):=\mathbb{E}(Y\mid x)$와 같이 조건부 기댓값으로 정의하면 다음과 같은 공식을 얻는다.

$$ \begin{split} \mathrm{Var}(Y)&=\mathbb{E}[\mathbb{E}[(Y-\mathbb{E}(Y\mid x))^2\mid x]]+\mathrm{Var}[\mathbb{E}(Y\mid x)] \\ &=\mathbb{E}[(Y-\mathbb{E}(Y\mid x))^2]+\mathrm{Var}[\mathbb{E}(Y\mid x)] \\ &=\mathbb{E}[(y-\hat{y}(x))^2]+\mathrm{Var}[\hat{y}(x)] \end{split} $$

이 공식에서 $\mathbb{E}[(y-\hat{y}(x))^2]$는 흔히 평균제곱오차(Mean Squared Error, MSE; 均方误差)라고 불리며 실제 관측값 $y$와 예측값 $\hat{y}(x)$의 차이를 측정하는 데 쓴다.

#3. 번외: 중심경향치

분산을 정의하는 과정을 되짚어보면, 자연스럽게 $\mathbb{E}(X)$를 ‘기준’으로 삼아 논의를 전개했음을 알 수 있다. 왜 하필 기준이 $X$의 ‘기댓값’이 되는 것일까? 어떤 데이터를 대표하는 중심경향치(Central Tendency; 集中趋势)에는 기댓값말고도 중앙값, 최빈값(Mode; 众数) 등이 있다. 기댓값, 중앙값, 최빈값은 가장 대표적인 중심경향치이다. (이른바 ‘평중최’.)

중앙값은 확률변수의 관측값을 크기 순으로 나열했을 때, 가운데 오는 값이고, 따라서 확률질량과 확률밀도 적분값을 50%로 나누게 되는 값이다. 최빈값은 확률변수의 관측값 중 그 관측빈도가 제일 높은, 즉 그 지점에서 확률질량이나 확률밀도가 최댓값을 갖도록 만드는 값이다.

기댓값을 ‘기준’으로 삼는 첫번째 이유는 수학적 조작이 편하기 때문이다. 간편하게 적분으로 조작할 수 있는 기댓값과 달리, 중앙값이나 최빈값은 크기 순으로 나열하거나 빈도를 헤아려야 하는 등 조작이 힘들다. 예를 들어 다음과 같은 관측값이 주어졌을 경우, 가장 쉽게 찾을 수 있는 것은 당연히 기댓값이다. 더하고 나누면 되기 때문.

$$ 1,4,6,7,9,2,3,5,6,2,7,1,2,8,5,10,23,3,6,7 $$

이런 이유에서 확률변수의 기댓값을 수학적 기대(Mathematical Expectation; 数学期望)라고 부르기도 한다.

두번째 이유는 $\arg\min\mathbb{E}[(X-x)^2]=\lbrace\mathbb{E}(X)\rbrace$이다. 분산의 정의를 $\mathbb{E}[(X-\mathbb{E}(X))^2]$가 아닌 $\mathbb{E}[(X-x)^2]$라고 해보자. 즉, ‘기준’을 $\mathbb{E}(X)$가 아닌 다른 값 $x$라고 해보자는 말이다.

좋은 ‘기준’은 어떤 점을 만족해야 할까? 분산이 기준에서 흩어진 정도를 표현하는 것임을 생각하면, 관측값이 이 ‘기준’과 같을 때 분산은 최소가 되어야 한다. 다시 말해 $x$가 $X$의 ‘기준’이 되려면, $x$에서 $\mathbb{E}[(X-x)^2]$는 최소가 되어야 한다.

이제 미분법으로 가중평균 $\mathbb{E}[(X-x)^2]$이 최소화되는 지점을 찾아보면, 다름 아닌 $x=\mathbb{E}(X)$로 유일하다는 사실을 알 수 있다.

$$ \begin{split} &g(x):=\mathbb{E}[(X-x)^2]=\mathbb{E}[X^2-2Xx+x^2]=\mathbb{E}(X^2)-2x\mathbb{E}(X)+x^2, \\ &g^{\prime}(x)=2x-2\mathbb{E}(X)=0\Rightarrow x=\mathbb{E}(X), \\ &g^{\prime\prime}(x)=2>0,\forall x\in\mathbb{R} \\ &\therefore\arg\min g(x) =\lbrace\mathbb{E}(X)\rbrace \end{split} $$

이런 이유들로 기댓값을 데이터의 흩어진 정도를 표현하는 ‘기준’으로 정했지 않나 싶다.

'확률론과 수리통계' 카테고리의 다른 글

상관계수  (0) 2023.01.02
공분산  (0) 2023.01.01
평균과 기댓값  (0) 2022.12.27
Irwin-Hall 분포  (0) 2022.12.25
삼각분포  (0) 2022.12.12