본문 바로가기

확률론과 수리통계

베타분포의 이해

#1. 베타분포의 정의

확률변수 $X$가 모수가 $(\alpha,\beta)$인 베타분포(Beta Distribution; 贝塔分布)를 따를 때, $X \sim \mathrm{Beta}(\alpha,\beta)$라고 표현하고, $X$는 다음과 같은 PDF를 갖는다:

note: $\mathbf{1}_{A}(x):=
\begin{cases}
1, & x \in A
\\
0, & x \notin A
\end{cases}$를 ‘지시함수(indicator function; 指示函数)’라고 한다.

$$
f(x) = \frac{1}{B(\alpha, \beta)} x^{\alpha - 1} (1-x)^{\beta - 1} \mathbf{1}_{[0,1]}(x)
$$

베타분포의 확률변수 $X$, 모수 $(\alpha,\beta)$는 다음과 같은 의미를 갖는다:

$\space$


$X$: 베타분포를 따르는 확률변수. 0~1의 값을 가진다.

$\alpha$: 성공모수. 베르누이 시행의 성공횟수에서 1을 더한 값이다.

$\beta$: 실패모수. 베르누이 시행의 실패횟수에서 1을 더한 값이다.


$\space$

우선 맨 앞의 상수 $\frac{1}{B(\alpha, \beta)}$를 이해해보자. 지난 글(확률밀도와 확률질량의 이해)에서 확률밀도함수는 물리학의 밀도함수와 다르게 다음과 같은 특별한 조건을 만족해야 한다고 했다.

$$
\int_{-\infty}^{\infty}
f(x)\space\mathrm{d}x
=1
$$

그런데, 임의의 함수 $f(x)$가 이 조건을 만족한다는 보장이 없다. 함수의 적분은 수렴할 수도 있지만, 발산할 수도 있다. 또, 수렴하더라도 그 값이 1이 아닐 수가 있다. 발산하는 경우는 방법이 없지만, 1이 아닌 값으로 수렴하는 경우 적절한 상수를 곱해서 1로 만들어 주면 된다. 즉, 이 상수는 PDF의 개형에 곱해짐으로써 $(- \infty, \infty)$에서 PDF의 적분 값을 1로 만드는 역할을 할 것이고, 관찰 값 $x$와는 관련이 없다.

note1: PDF 앞의 상수를 이런식으로 해석하는 것은 분포를 이해하는 데 자주 쓰이는 기법이다. 비례기호를 사용해서 $f(x) \propto x^{\alpha - 1} (1-x)^{\beta - 1}$로 표현하기도 한다.

note2: $B(\alpha, \beta) := \frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}$로 정의한다고 한다. 왜 이렇게 복잡한 정의가 필요할까? 후술.

결국 눈 여겨봐야 할 것은 $x^{\alpha - 1} (1-x)^{\beta - 1}$과 지시함수 $\mathbf{1}_{[0,1]}(x)$이다. 여기서 지시함수의 의미는 확률변수 $X$가 구간 $[0,1]$ 사이의 값을 갖는다는 것으로, 이 사실을 출발점으로 삼아 베타분포를 이해해보자.

어떤 변수들이 구간 $[0,1]$ 사이의 값을 가졌었나? 여러가지(뉴런의 활성도, 흑백의 색상값, 퍼지논리에서 진리값 등) 변수들을 생각할 수 있지만, 가장 대표적인 것은 아마도 ‘확률’일 것이다. 베타분포가 다루는 확률변수를 우선 ‘확률’이라고 생각하자. 그리고 확률변수 $X$의 관측값 $x$를 $p$로 대체하겠다. 그러면 다음과 같은 식의 의미도 이해할 수 있다.

$$
p^{\alpha - 1} (1-p)^{\beta - 1}
$$

$x$를 $p$로 대체했을 뿐인데, 뭔가 친숙한 모양이 나타났다. 이 식은 어떤 사건의 성공확률을 $p$로 놓고, 독립 베르누이 시행을 총 $(\alpha + \beta - 2)$회 했을 때, 성공횟수와 실패횟수가 각각 $(\alpha - 1)$, $(\beta - 1)$회인 여러가지 사건 중 하나의 확률을 의미한다.

note: 총 5회를 독립시행해서 3번성공하고 2번실패할 사건 중 하나의 확률은 $p^{3} (1-p)^{2}$이다. 그런데 이런 사건은 총 ${5 \choose 3}$개가 있고, 각 사건의 확률은 $p^{3} (1-p)^{2}$로 같다. 그래서 모든 확률은 ${5 \choose 3} p^{3} (1-p)^{2}$이다. 이항분포를 떠올리자. 베타분포도 이항분포처럼 앞에 조합수 같은 것이 곱해져야 모든 경우를 나타낼 수 있지 않을까?후술.

그런데, 왜 성공과 실패의 횟수를 $\alpha$, $\beta$가 아닌 $(\alpha - 1)$, $(\beta - 1)$로 정했을까? 이 질문에 답하기 위해, 직접 베타분포의 PDF를 유도해보자. 어떤 공식을 직접 유도하는 것은 그 공식을 이해하는데 큰 도움을 줄 것이다.

#2. 베타분포의 PDF 유도

베타분포의 PDF는 다음과 같은 형태를 가질 것이다.

$$
f(p) = C p^{\alpha} (1-p)^{\beta} \mathbf{1}_{[0,1]}(p)
$$

여기서 C는 상수이며, $f(p)$는 다음 등식을 만족한다.

$$
\int_{-\infty}^{\infty}
f(p)\space\mathrm{d}p
=1
$$

그리고 $p \notin [0,1]$일 때 $f(p) = 0$이므로 그 적분 값도 0일 것이다. 결국 이 등식은 다음과 같이 쓸 수 있다.

$$
\begin{split}
\int_{0}^{1} &C p^{\alpha} (1-p)^{\beta}\space\mathrm{d}p=1
\\
&C = \frac{1}{\int_{0}^{1} p^{\alpha} (1-p)^{\beta}\space\mathrm{d}p}
\end{split}
$$

목표는 상수 $C$를 구하는 것으로, $C$의 분모인 적분 값 $\int_{0}^{1}
p^{\alpha} (1-p)^{\beta}
\space\mathrm{d}p$을 계산하면 된다. 계산과정은 다음과 같다.

note: 계산에는 부분적분공식 $\int u \space\mathrm{d}v = uv - \int v \space\mathrm{d}u$, 감마함수의 성질 $\Gamma (z) = (z-1)!$이 이용되었다.

이렇게 구해낸 상수를 대입하면, 베타분포의 PDF는 다음과 같이 쓸 수 있다.

$$
f(p) = \frac{\Gamma(\alpha+\beta+2)}{\Gamma(\alpha+1)\Gamma(\beta+1)} p^{\alpha} (1-p)^{\beta} \mathbf{1}_{[0,1]}(p)
$$

앞의 상수가 비교적 복잡하다. $\alpha$대신 $(\alpha - 1)$을 넣고, $\beta$대신 $(\beta - 1)$을 넣으면 상수가 깔끔해진다. 또, $p$대신 $x$를 넣자. 그러면 베타분포의 PDF는 다음과 같은 형태를 가진다.

$$
f(x) = \frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)} x^{\alpha - 1} (1-x)^{\beta - 1} \mathbf{1}_{[0,1]}(x)
$$

이것이 바로 베타분포를 모델링할 때, 성공횟수와 실패횟수를 $\alpha$, $\beta$가 아닌 $(\alpha - 1)$, $(\beta - 1)$로 놓았던 이유이다. 앞의 상수항을 어떻게든 간단하게 하기 위함이다.

그런데 상수인 $\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}$도 복잡하기는 마찬가지이다. 이제 $B(\alpha, \beta) = \frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}$로 놓으면, 최종적인 PDF는 다음과 같고, 이것이 널리 알려진 베타분포의 PDF의 형태이다.

$$
f(x) = \frac{1}{B(\alpha, \beta)} x^{\alpha - 1} (1-x)^{\beta - 1} \mathbf{1}_{[0,1]}(x)
$$

여기서 굳이 $B(\alpha, \beta) = \frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}$처럼 역수로 놓은 이유는 무엇일까? 아마도 자주 쓰이는 적분 값 $\int_{0}^{1} p^{\alpha-1} (1-p)^{\beta-1}
\space\mathrm{d} p$을 $B(\alpha, \beta)$로 정의하기 위함이 아닐까 생각해본다. 감마분포에서 감마함수가 있듯이, 베타분포에는 베타함수가 있다. 베타함수의 정의는 다음과 같다.

$$
B(\alpha, \beta)
:= \int_{0}^{1} p^{\alpha-1} (1-p)^{\beta-1}\space\mathrm{d}p
=\frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}
$$

#3. 더 생각해볼 점

#3-1. 미적분학 교재에 실린 적분문제들

대학교에서 미적분학을 배울 때 교재에서 감마함수 문제와, 그리고 적분 $\int_{0}^{1} p^{\alpha-1} (1-p)^{\beta-1}\space\mathrm{d} p$를 계산하는 문제들을 푼 적이 있다. 그때는 내가 뭐하러 이런 것들을 계산하고 있나 했더니 수리통계학을 배우면서 깨닫게 되었다. 결코 문제를 위한 문제가 아니라 의미를 가지는 적분값이었던 것이다. 다른 적분값도 혹시 뭔가 의미가 있나 알아봐야겠다.

#3-2. 이항계수의 일반화: 베타함수

식 $p^{\alpha - 1} (1-p)^{\beta - 1}$은 어떤 사건의 성공확률을 $p$로 놓고, 독립시행을 총 $(\alpha + \beta - 2)$회 했을 때, 성공횟수와 실패횟수가 각각 $(\alpha - 1)$, $(\beta - 1)$회인 여러가지 사건 중 하나의 확률을 의미한다고 했다. ‘여러가지 사건 중 하나’라는 말은 앞에 이항계수같은 무언가가 안 붙어 있어서 그런 것이다. 예를 들면, 총 5회를 독립시행해서 3번성공하고 2번실패할 사건은 총 ${5 \choose 3}$개가 있고, 각 사건의 확률은 $p^{3} (1-p)^{2}$로 같다. 그래서 모든 확률은 ${5 \choose 3} p^{3} (1-p)^{2}$이다.

그렇다면 $p^{\alpha - 1} (1-p)^{\beta - 1}$앞에 붙는 상수인 베타함수의 역수 $\frac{1}{B(\alpha, \beta)}$는 혹시 이항계수에 대응되거나, 그것을 일반화한 무언가라 볼 수 있지 않을까? 감마함수는 팩토리얼을 일반화한 것이므로 이 예상은 일리가 있다. 그리고 책을 뒤져보니 다음이 성립한다고 한다:

$$
{n \choose k} = \frac{1}{(n+1)B(n-k+1,k+1)}
$$

예상이 맞았다. 베타함수는 이항계수를 일반화한 것이라고 생각되는 모양이다. (그렇다면 베타함수보다는 ‘베타계수’가 좀 더 좋은 이름인 것 같다.)

$\space$

$\space$

이제 베타분포에 대해 대략적인 내용을 파악했으니, 다음 글은 이 분포를 가지고 어떤 재미난 것들을 할 수 있는지 적어봐야겠다.

2022.10.03 - [확률론과 수리통계] - 베타분포의 응용

'확률론과 수리통계' 카테고리의 다른 글

이항분포  (0) 2022.10.06
베르누이 분포  (0) 2022.10.06
이산확률변수와 이산분포  (0) 2022.10.05
베타분포의 응용  (0) 2022.10.03
확률밀도와 확률질량의 이해  (0) 2022.10.02