이차형식은 원래 선형대수학의 내용에 가깝지만 수리통계학을 공부할 때 자주 등장하므로 따로 정리한다.
#1. 이변량 이차함수
$x$와 $y$에 관한 이변량 이차함수(Bivariate Quadratic Function; 二元二次函数)는 다음과 같이 주어진다. 이변량 이차함수는 제곱항 $ax^2$, $cy^2$, 혼합항 $bxy$, 일차항 $dx$, $ey$, 그리고 상수 $f$로 이루어져 있다.
$$ Q(x,y)=ax^2+bxy+cy^2+dx+ey+f $$
이변수 함수의 그래프는 직교좌표계에서 곡면으로 그려지는데, 흔히 곡면의 성질을 연구하기 위해서 평평한 평면과 곡면의 교집합인 곡선을 연구한다.
예를 들어 그림의 곡면은 타원포물면이라는 이차곡면이고, 이변수 이차함수 $Q(x,y)$의 그래프의 여러가지 형태 중 하나이다. 곡면을 가로로 자른 단면은 타원이고, 세로로 자른 단면은 포물선이다. 그래서 이 곡면은 세로로 타원을 쌓아올려 만든것, 그리고 가로로 포물선을 붙여서 만든것으로 이해한다. 이런 방식으로 곡면을 잘라서 연구한다.
#2. 이차곡선
이변량 이차함수 $Q(x,y)=\mathrm{constant}$로 놓으면 이차곡선을 얻을 수 있다. 타원, 포물선, 쌍곡선 등 이차곡선의 형태는 다양하나, 수리통계학에서 주로 관심을 갖는 것은 타원이다. 타원은 타원포물면의 가로방향 절단면의 모습이다. 타원의 방정식은 다음과 같이 주어진다.
$$ \frac{x^2}{m^2}+\frac{y^2}{n^2}=1 $$
이것은 중심이 원점에 있고, 장축과 단축이 좌표축과 평행한 타원이다. 좀더 일반적인 타원은 다음과 같이 나타내는데, 원래의 타원을 원점을 중심으로 반시계방향으로 $\alpha$만큼 회전시킨 뒤, $(x_0,y_0)$만큼 오른쪽, 위쪽 방향으로 평행이동시킨 것이다.
$$ \frac{[(x-x_0)\cos\alpha+(y-y_0)\sin\alpha]^2}{m^2}+\frac{[(x-x_0)\sin\alpha-(y-y_0)\cos\alpha]^2}{n^2}=1 $$
다음과 같이 좌변을 $(x-x_0)$과 $(y-y_0)$의 제곱항과 혼합항의 합으로 정리할 수 있다. 결국 회전으로 인해 혼합항이 추가되었음을 알 수 있다.
$$ \begin{split} \left(\frac{\cos^2\alpha}{m^2}+\frac{\sin^2\alpha}{n^2}\right)(x-x_0)^2 + 2\left(\frac{1}{m^2}-\frac{1}{n^2}\right)\cos\alpha\sin\alpha(x-x_0)(y-y_0) + \left(\frac{\cos^2\alpha}{n^2}+\frac{\sin^2\alpha}{m^2}\right)(y-y_0)^2 \end{split} $$
만약 여기서 $(x-x_0)^2$과 $(y-y_0)^2$을 전개한다면 일차항과 상수항을 얻을 수 있으므로 평행이동으로 인해 일차항과 상수항이 추가되었음을 알 수 있다.
정리하면, 임의의 이차곡선에서 혼합항은 회전변환 때문에, 일차항과 상수항은 평행이동 때문에 추가된다.
#3. 이차형식
위 식을 굳이 전개하지 않고 $u:=x-x_0$, $v:=y-y_0$으로 놓으면, 좌변은 $u$, $v$에 관한 이차식이 되고, 이 이차식은 제곱항과 혼합항으로만 이루어져 있다. 각 항의 계수를 $A$, $2B$, $C$로 놓으면 좌변은
$$ Au^2+2Buv+Cv^2\cdots(1) $$
이것을 행렬과 벡터의 곱으로 나타내면
$$ (u,v)\begin{pmatrix}A&B\\B&C\end{pmatrix}\begin{pmatrix}u\\v\end{pmatrix}\cdots(2) $$
$u$, $v$에 관한 이차식 중 일차항과 상수항이 없는 (1)과 (2)같은 식을 $u$, $v$의 이차형식(Quadratic Form; 二次型)이라고 한다.
다만 (2)와 같이 행렬과 벡터의 곱으로 이차형식을 나타내는 경우, 중간의 행렬은 반드시 대칭행렬이 되어야 한다. 사실 (2)에서 (1)을 얻으려면 행렬의 $A$와 $C$를 제외한 합이 $2B$가 되기만 하면 된다. 하지만 대칭행렬은 보기에도 편하고, 좋은 성질들을 가지고 있으므로 대칭행렬로 정한다.
혼합항의 계수는 $B$가 아닌 $2B$로 정하는데, 대칭행렬을 사용하기로 한 이상, 만약 $B$로 정할 경우 $\begin{pmatrix}A&B/2\\B/2&C\end{pmatrix}$와 같이 의미없는 복잡함이 생기기 때문이다.
한편, 이차형식에서 대칭행렬만이 허용되므로, 임의의 이차형식의 행렬은 유일하다. 따라서 중간의 행렬을 ‘이차형식의 행렬’이라고 부를 수 있고, 이차형식과 이차형식의 행렬(대칭행렬)은 같은 것으로 취급된다. 모든 대칭행렬과 이차형식은 일대일 대응관계이다.
예를 들어 $2\times2$ 대칭행렬 $\begin{pmatrix}1&3\\3&2\end{pmatrix}$은 이차형식 $x^2+6xy+2y^2$에 대응되고, $3\times 3$ 대칭행렬 $\begin{pmatrix}1&3&4\\3&2&5\\4&5&6\end{pmatrix}$은 이차형식 $x^2+2y^2+6z^2+6xy+8xz+10yz$에 대응된다.
이러한 일대일 대응관계에 의해, ‘대칭행렬의 고유값’을 ‘이차형식의 고유값’이라고 부를 수 있고, ‘이차형식의 부호’를 ‘대칭행렬의 부호’로 부르는 것이 가능하다.
이변량의 이차형식을 일반화하여 $n$개의 변수에 대해 다음과 같이 이차형식 $Q(\mathbf x)$가 정의된다.
$$ \begin{split} &Q(\mathbf x):=\mathbf{x^TAx} \\ &\mathbf{x:=\begin{pmatrix}x_1\\x_2\\\vdots\\x_n\end{pmatrix},A:=\begin{pmatrix}a_{11}&a_{12}&\cdots& a_{1n}\\a_{12}&a_{22}&\cdots& a_{2n}\\\vdots&\vdots&\ddots& \vdots\\a_{1n}&a_{2n}&\cdots& a_{nn}\end{pmatrix}} \end{split} $$
#4. 이차형식의 직교대각화
타원은 $C_1:0.25x^2+y^2=4$ 처럼 제곱항만 있는 것이 연구하기에 좋다. $C_1$의 방정식만 보고, 타원의 4개의 꼭지점 $(0,\pm 2)$, $(\pm 4, 0)$을 바로 얻을 수 있기 때문이다.
반면, $C_2: 1.25x^2-1.5xy+1.25y^2=8$ 과 같이 혼합항이 있다면 꼭지점을 바로 얻을 수 없다. 따라서 자연스럽게 $C_2$와 같은 타원에 적절한 회전변환을 취해, 혼합항을 제거하는 문제를 생각하게 된다. 타원은 이차형식과 연관되어 있고, 회전변환은 선형변환이므로, 이는 곧 이차형식에 적절한 선형변환을 취해 혼합항을 제거하는 문제로 이어진다.
한편, 다음과 같이 제곱항만 남은 이차형식의 행렬은 대각행렬이다. 따라서 이차형식의 혼합항을 제거하는 문제는 이차형식의 행렬을 대각행렬로 만드는 문제와 같다.
$$ \begin{split} &\lambda_1x_1^2+\lambda_2x_2^2+\cdots+\lambda_nx_n^2=(x_1,x_2,\cdots,x_n)\begin{pmatrix}\lambda_1&\\&\lambda_2\\&&\ddots\\&&&\lambda_n\end{pmatrix}\begin{pmatrix}x_1\\x_2\\\vdots\\x_n\end{pmatrix} \\ &=\mathbf{x^T\Lambda x} \end{split} $$
임의의 이차형식 $\mathbf{x^TAx}$의 혼합항을 없애려면, 적당한 선형변환 $\mathbf{x=Py}$를 적용하여 $\mathbf{x^TAx=y^T\Lambda y}$로 바꿔야 하는데, 문제는 이러한 선형변환의 존재 여부이다.
직관적으로 이러한 회전변환은 항상 존재한다. 반시계방향으로 $\alpha$만큼 회전시킨 타원은 다시 시계방향으로 $-\alpha$만큼 회전시켜 복구할 수 있다. 따라서 모든 이차형식은 적절한 선형변환을 통해 혼합항을 제거하여 제곱항만 남길 수 있다.
수학적으로 이 사실을 보이기 위해 먼저 다음과 같은 대칭행렬의 성질을 받아들이자.
$\space$
$\mathbf A$가 대칭행렬이다. $\Leftrightarrow$ $\mathbf A$는 직교대각화 가능하다.
$\space$
행렬의 닮음과 대각화에 대해서 복습해보자. $\mathbf{P}^{-1}\mathbf{AP=B}$가 성립하면 $\mathbf A$와 $\mathbf B$는 닮았다(Similar; 相似)고 표현하며, $\mathbf{A\sim B}$로 나타낸다. $\mathbf P$가 직교행렬이면, 직교적으로 닮았다(Orthogonaliy Similar; 正交相似)고 표현한다.
$\mathbf{A\sim\Lambda}$이면, 즉 $\mathbf A$가 많고 많은 행렬 중에 하필이면 대각행렬과 닮았다면, $\mathbf A$는 대각화 가능하다(Diagonalizable; 可对角化)라고 표현한다. $\mathbf{P}^{-1}\mathbf{AP=\Lambda}$를 만족하는 가역행렬 $\mathbf P$를 찾아 $\mathbf{A}=\mathbf{P\Lambda P}^{-1}$로 나타내는 것을 $\mathbf P$가 $\mathbf A$를 대각화(Diagonalization; 对角化)한다고 표현한다. $\mathbf A$를 대각화하는 행렬 $\mathbf P$가 직교행렬이면, 직교대각화(Orthogonal Diagonalization; 正交对角化)라고 한다.
직교행렬은 $\mathbf{P^TP=I}$, 즉 $\mathbf{P^T}=\mathbf{P}^{-1}$을 만족하는 행렬이다. 따라서 $\mathbf{A}$가 $\mathbf P$에 의해 직교대각화 가능하다면 다음이 성립한다.
$$ \mathbf{A}=\mathbf{P\Lambda P}^{-1}=\mathbf{P\Lambda P^T} \\ \mathbf{\Lambda}=\mathbf{P}^{-1}\mathbf{AP}=\mathbf{P^T A P} $$
이차형식의 행렬은 모두 대칭행렬이므로 직교대각화 가능하다. 이제 이 사실을 토대로 임의의 이차형식 $\mathbf{x^TAx}$가 항상 직교변환 $\mathbf{x=Py}$를 통해 혼합항이 없는 $\mathbf{y^T\Lambda y}$의 형태로 변환될 수 있음을 보이자.
$$ \mathbf{x^TAx=(Py)^TA(Py)=y^T(P^TAP)y=y^T\Lambda y} $$
#5. 정부호 행렬
이차곡선 $\lambda_1x^2+\lambda_2y^2=1$이 주어져 있다고 하자. $\lambda_i$의 부호에 따라, 이 이차곡선의 방정식은 쌍곡선(H), 포물선(P), 타원(E)을 나타내거나, 무의미(X)할 수도 있다.
앞서 밝혔듯 수리통계학에서는 타원을 좋아한다. 어떤 데이터의 산점도를 그렸을 때, 데이터는 기본적으로 타원모양으로 분포한다고 가정한다. 포물선이나 쌍곡선모양으로 분포한다고 가정하는 일은 정말 드물 것이다.
그래서 어떤 이차형식을 직교대각화했는데 $\lambda_i>0$이라면 안심이 된다. 이러한 이차형식을 양의 정부호(Positive Definite; 正定)이라고 한다. 양의 정부호 이차형식은 모든 0벡터가 아닌 벡터에 대해 양수의 값을 가진다. (0벡터는 꼭 제외해야 한다.) 그래서 ‘양의 정부호’라고 하는 것이다. 그리고 모든 이차형식은 대칭행렬과 일대일 대응이므로 ‘양의 정부호’행렬이라고 할 수도 있다.
$$ \forall\mathbf{x\not=0},\mathbf{x^TAx=y^T\Lambda y}>0\Leftrightarrow \lambda_i>0\Leftrightarrow \mathbf A는\enspace양의\enspace정부호 $$
note: 비슷한 방식으로, 항상 음수 값을 갖는 음의 정부호(Negative Definite; 负定), 그리고 0일 수도 있는 양의 준정부호(Positive Semidefinite; 半正定), 음의 준정부호(Negative Semidefinite; 半负定) 이차형식과 행렬을 생각할 수 있다.
이렇게 혼합항이 없는 이차곡선은 부호를 쉽게 정할 수 있다. 그러나 $ax^2+2bxy+cy^2=1$ 처럼 혼합항이 있는 형태라면, 부호를 판별하기 쉽지 않다. 그렇다면 부호를 판별하기 위해 반드시 혼합항을 제거해야할까?
앞서 임의의 대칭행렬 $\mathbf A$는 항상 대각행렬 $\mathbf\Lambda$와 직교적으로 닮았음을 보였다. 그리고 닮음관계에 있는 행렬끼리는 고유값이 같다. 어떤 대칭행렬이 양의 정부호임을 판별하는 $\lambda_i$는 대각행렬 $\mathbf\Lambda$의 성분이며, 대각행렬의 고유값은 그 대각행렬의 성분이다. 따라서 실제로 대칭행렬 $\mathbf A$를 굳이 대각화하지 않아도, 고유값만 구해서 부호를 보면, 그 행렬의 부호를 판별할 수 있다.
$$ \mathbf A의\enspace모든\enspace고유값이\enspace양수\Leftrightarrow \mathbf A는\enspace양의\enspace정부호 $$
물론, 양수니 음수니 하는 부호의 문제는 고유값이 실수라는 가정하에 일어난다. 대칭행렬의 또 다른 성질 중 하나는 모든 고유값이 실수라는 것이다. 이차형식의 행렬은 모두 대칭행렬이므로 고유값의 부호를 판별할 수 있다.
'Mathematics' 카테고리의 다른 글
확률변수의 수렴 (0) | 2023.01.18 |
---|---|
거의 어디서나 (0) | 2023.01.17 |
평균제곱오차와 선형예측 (0) | 2023.01.11 |
이변량 정규분포 (0) | 2023.01.09 |
상관계수 (0) | 2023.01.02 |